搜索引擎中的相似网页探测算法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:yangqiding
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
相似网页(Near-Duplicate Web Pages)在互联网中的大量存在,给搜索引擎带来了多方面的问题,如爬行程序反复的搜录同样内容的网页给搜索引擎的爬行程序自身及互联网都带来了沉重的负担,由此导致索引的重复与额外存储空间的消耗,并降低了搜索引擎的性能和用户体验。因此,若有效的相似网页探测算法能够去除大量的重复网页,则可以大大减轻搜索引擎的负担和提升搜索引擎的性能与用户体验。回顾了搜索引擎的发展历程、分析了搜索引擎的工作原理,并着重研究了搜索引擎的相似网页探测算法的现状,在分析现有算法的优势与不足后,概括了准确有效的相似网页探测算法所应该具备的两个基本条件。在经典的Simhash指纹算法和Shingle算法的的基础上,针对这两个算法的不足,以上述两个基本条件为基准,给出了多种改进方案。针对Simhash算法所缺乏的单词位置信息等,将单词位置信息融入单词权重;针对Shingle算法缺乏词频特征,于是将全部Shingle的指纹进行叠加。为了进一步改善算法性能,考虑两个算法的特点,特将两个算法进行集成,同时进一步挖掘网页内容特征,将词性、词频、单词位置等融入Shingle权重。另外由于Shingle数量级太大,而给出根据单词指纹叠加生成Shingle指纹的方法。改进主要集中于提取更加完善的网页内容特征,从而提高网页相似度计算的准确度。根据这些算法的改进,以Manku等人的指纹探测算法为基础,构建了一个原型系统,以实验分析验证了算法改进的有效性,并将该原型系统进行重构加入到一个搜索引擎爬行系统中,实现了有效的相似网页在线探测。
其他文献
数字校园是指利用多媒体、网络等信息技术,将学校的主要信息资源数字化,并实现数字化的信息管理方式和沟通传播方式,从而形成高度信息化的人才培养环境和科研环境。数字校园
基于群签名的安全数据访问技术,是一种以群签名体制为身份验证手段,可实现用户以匿名方式访问数据,同时可验证用户有效身份的安全数据访问技术。本文以Ateniese等人提出的ACJ
随着对外交流,引进先进技术的增加,人们接触专利文献的机会越来越多。从事科技翻译的人员经常要遇到专利文献的翻译问题。而术语翻译尤其是专利文献翻译的一个重要部分。近年
现有基于Petri网、Agent等技术的多媒体同步模型,均使用单一的同步尺度,难以解决流内同步和流间同步的矛盾。选择对象粒度太小,有利于保持流间同步,但会破坏流内同步,即造成
学位
随着信息时代的到来和计算机网络技术的飞速发展,分布式环境日益普遍,而传统的集中式数据挖掘技术无法解决分布式下的挖掘问题,故在分布式下如何进行有效的数据挖掘成为当今
近年来,随着互联网和各种信息交互平台的大力发展,现实世界中的个体在不同的网络虚拟空间中形成了多种多样的社会网络。其中,各种交流论坛收集了丰富的用户个人信息,用户之间
本体,这个概念起源于哲学,在计算机科学与信息科学领域,因为它对知识工程中的很多问题有很大的帮助,所以在最近几年,有着很大的发展。生物医学领域,近几年也在飞速发展,而本
随着互联网技术的不断发展,网络入侵技术也在不断进步,复合攻击已经成为网络攻击的主要形式之一,给社会带来了越来越大的危害。现在大多数的入侵检测系统只能检测到攻击,却不
公钥基础设施PKI以非对称加密技术为基础,为网络信息安全提供保障。PKI以数字证书为密钥管理工具,终端实体之间进行通信之前必须要验证使用的数字证书是否已经被撤销,即验证