基于聚类技术的网页分类应用

被引量 : 0次 | 上传用户:alibaba1025
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,网络在人们日常生活工作中所起到的作用越来越重要。网络已经成为新的信息承载媒体。与此同时,互联网的规模也以爆炸性的速度在扩大。包含着大量信息的海量网页还在以惊人的速度增长着。所以,如何对存在于海量网页中的信息做到快速准确的提取、呈现,方便使用者查询,就是迫切需要解决的问题了。本文围绕着如何对海量文章进行快速、准确的分类,并且明了的将分类结果表示出来,方便用户查询等问题进行研究,研究内容和取得的成果主要是在网页内容的分类和分类结果的描述方面。针对于常见的互联网搜索结果中重复、无用、与搜索主题相关度不高的情况,引入了分类方法。网页的分类是方便互联网信息查询的一种有效手段,同时也是信息查询的一种新的发展方向。通过对互联网中网页的分类,可以将网页按照内容的不同进行相应的分类。由于后缀树聚类算法STC(Suffix Tree Clustering)的线性构造时间优势,聚类结果适合实际应用等特点,本文结合实际情况,尝试采用后缀树聚类算法STC(Suffix Tree Clustering)对网页进行分类。以实际的使用环境为前提,提高算法执行过程中的执行效率,同时改进对分类结果的描述,便于结果的查询,提高实际使用效率。
其他文献
20世纪70年代末翻译理论界产生了“翻译目的论”。以汉斯.费米尔为代表的德国学者认为,翻译是建立在原文基础上的,有目的的人类活动。译者应根据客户的要求,翻译的目的及目的
资本是商品经济高度发展的产物,它产生于资本主义社会,但不一定就是资本主义的专利品。社会化大生产和发达的商品经济赋予了现代资本以丰富的内涵和不同的表现形式,公有资本
21世纪的今天,科学技术实现了日新月异的发展,社会经济也实现了空前的繁荣,人们生活水平则更是得到了极大的提高,这样看来好像一切似乎都是那么的积极正面,然而任何事物都是
隐喻研究一直是语言学家关注的焦点所在。在传统研究中,隐喻被认为是一种语言修辞手段。随着研究的深入,语言学家逐渐认识到隐喻是一种重要的认知工具。莱柯夫和约翰逊(1980)
目的采用动物实验,用高糖、高脂饮食加小剂量链脲佐菌素(STZ)的方法诱导糖尿病模型。观察2型糖尿病大鼠心肌组织脂联素受体2 (AdipoR2)及葡萄糖转运蛋白4(GluT4)的表达情况。
随着网络技术的出现和发展,以及计算机应用的日益普及化,互联网以前所未有的速度影响着人们的生活,公众开始借助这个虚拟的平台对关注的社会热点事件表达自己的看法和态度,实
议程设置理论作为媒介效果的理论之一,揭示了大众传媒对于受众的影响。议程设置理论告诉我们,这种影响在传统媒体盛行的年代里,是非常强大的。在拥有强大权力的同时,媒体也担
目的观察罗格列酮对2型糖尿病大鼠肾脏脂联素受体1(adiponectin receptor 1, AdipoR1)表达的影响,探讨罗格列酮对2型糖尿病大鼠肾脏保护作用及机制。方法36只6周龄清洁级雄性
多电机同步控制系统广泛应用于工业场合,一些特定的场合要求多电机系统精确同步,且具有良好的稳态性能和动态性能,因此,控制方法的研究尤为重要。针对多电机运行系统的速度同
在当前数字信息技术和网络技术高速发展的时代,嵌入式系统已经广泛渗透到科学研究,工程设计,军事技术等领域以及人们的日常生活。随着国内外嵌入式产品的进一步开发和推广,嵌