基于网页挖掘的搜索引擎若干技术的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:villmid
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,搜索引擎越来越受人青睐。它能够将杂乱无章的信息整合起来,方便快捷地为用户提供信息。而搜索引擎搜索的最基本元素就是网页,所以本文从网页入手,对网页进行了时间信息挖掘,结构信息挖掘和指纹信息挖掘。与之对应的从增量采集、网页净化、网页分析三个方面阐述了提高搜索引擎返回结果质量的方法。本文在对增量采集技术说明中,针对诸如大型新闻门户网站更新频率快的特点,采用了网页的时间挖掘方法,通过对更新时间的考察,减少了下载网页的次数以及在数据库中查找的次数,比较有效的解决了对更新频率快的网站增量下载的问题,并使新出现的网页能够及时的被用户查找到。在网页净化技术说明中,我们将网页表示成一颗DOM树,并首次将中文标点符号数引入到衡量网页正文的权重中,通过对DOM树不断的剪枝,极大的减少了网页的噪音。在网页去重技术说明中,我们提出了一种基于网页净化的网页去重的方法,将网页净化方法与指纹特征提取方法相结合,有效的提高网页去重的准确率。此外,我们还将网页去重技术应用到变异短文本的聚类中,在变异短文聚类领域中,首次将去重技术应用到聚类领域中,在速度和准确率方面都取得了很好的效果。通过实验表明,本文所做研究的内容,很有效的提高了搜索引擎性能,达到了很好的预期效果。
其他文献
在我国,随着我国入世步伐的深入,钢铁行业的优惠政策逐步消除,我国的钢铁工业将面临严峻的挑战,竞争更加激烈。钢铁企业占地面积一般比较大,面积小的有几平方公里、面积大的
大规模存储集群中出现节点失效已成为经常性事件,通常使用副本或纠删码等冗余技术保证存储系统的可靠性。纠删码技术因其在相同容错能力情况下能显著降低存储空间开销,被许多
嵌入式技术的迅猛发展可以说是信息技术革命的一个缩影,近些年来,嵌入式系统的应用不再仅仅局限于工业范围,越来越多的人考虑将其应用到生活的方方面面.随着嵌入式系统功能的日益
随着Interact的迅速普及和发展,Web技术与数据库技术的结合使得传统的管理信息系统的开发模式发生了很大的变革。本文对分布式动态Web应用系统的不同开发方案和技术进行了系统
云存储的迅猛发展给用户带来便捷的同时,也带来了许多的安全性问题。在云存储环境下,数据拥有者把数据存储到云端,数据的控制权不能受到保证。数据加密和控制数据的访问权限是保
搜索引擎是获取信息的有效工具,设计与实现搜索引擎是一项庞大的工程,要运用较多专业技术知识。本文力图通过实例分析,介绍搜索引擎的设计、实现、搜索结果聚类及其它与搜索引擎
随着社会的发展、经济的进步,一个家庭面对的事情变得越来越复杂。如何有效地管理和利用家庭内外的资源以达到期望的生活目标成为人们关注的热点问题。本文结合家庭资源的实
计算机网络正以惊人的速度发展,但是网络安全问题却变得越来越突出,越来越复杂,解决安全问题对许多网络应用来说是首要难题。目前,安全协议是解决网络安全问题最有效的手段之
电子产品的“轻、薄、短、小”化对元器件的微型化和组装密度提出了更高的要求,而焊点的质量和可靠性是影响电子产品质量的重要因素。因此,如何保证焊点质量就成为一个十分重
随着计算机技术、多媒体技术以及互联网的崛起,给远程教育带来了新的机遇。近二十年来,我国的社会经济持续、快速地向前发展,使得整个社会对人力资源的需求越来越迫切。目前,