基于布尔模型的网页查重算法研究

来源 :中国科学院计算技术研究所 | 被引量 : 20次 | 上传用户:yilongfengyue5656
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,互联网中的数据呈现出数据爆炸的趋势,其中所包含的各种信息越来越多,互联网已经成为了人们获取信息的一个主要渠道。然而,用户有的时候只是知道自己所要寻找信息的关键词,而不知道具体的网页链接(URL)。因此,开发出一种工具来帮助用户寻找自己需要的信息成为了自然语言处理的一个研究方向。于是,受到信息检索的启发,有研究机构发明了搜索引擎,以方便用户从网络中搜索到自己所需要的信息。搜索引擎的出现大大的方便了用户从互联网上查找信息的过程,节约了用户的处理时间,受到了互联网使用者的欢迎。互联网上也出现了很多著名的搜索引擎,如针对多种语言的Google搜索引擎和针对汉语的Baidu搜索引擎等。然而,受到商业利益的驱使,有些网站为了提高自己的点击率,经常大量转载别的网站的文章;除此之外,各大网站也会争相报道发生的热门事件和大众感兴趣的焦点话题,这样不仅增加了搜索引擎处理的负担,也使得搜索引擎经常返回很多内容相同但是只是链接不同的结果,降低了搜索引擎返回结果的有效性,也增加了用户查找到自己需要的信息的时间。去除重复的网页是提高搜索引擎检索效率和结果有效性的一个途径。本文基于对文章的内容的分析,提出了两种较为有效的网页查重算法:基于高频词的网页查重算法和基于布尔模型的网页查重算法。基于高频词的网页查重算法根据特征的频率选择特征,组成特征串,来判别重复网页。而基于布尔模型的网页查重算法则是选择布尔模型来表示文本,同时将其运用到了文本的汉明距离计算之中,有效的减少了文本之间两两互相比较的次数。本文主要进行了以下几个方面的工作:1分析了重复网页产生的原因,并且总结了针对各种不同的重复,所提出的各种不同的网页查重算法。2在分析比较各种关于‘重复’定义的基础上,根据Pugh的定义设计了基于布尔模型的网页查重算法。3.实际验证了基于布尔模型的网页查重算法,并且进行了测试,证明该算法取得了较好的结果。
其他文献
网格计算已成为当前研究的一个热点。在网格系统中,资源调度是一个难题。优秀的资源调度策略,可以减少任务的执行时间和费用、提高服务质量、增加整个网格系统的吞吐量。本文
学位
互联网的出现给人们的生活带来了巨大的变化,通过互联网,人们可以及时获取信息,但互联网信息量的快速增长及人们对信息处理提出的更高要求,使传统的有线网络已不能满足用户的需求
学位
入侵检测技术作为动态安全系统(P2DR)最核心的技术之一,在网络纵深防御体系中起着极为重要的作用,它是静态防护转化为动态防护的关键,也是强制执行安全策略的有力工具。随着
本文以家庭服务网关OSGi为平台,采用OSGi bundle的模块形式,对SmartHome环境中各种信息实体服务,实现了实体上下文信息的收集与推理。 首先,本文介绍了本体的起源,本体被人工智
三维光学扫描仪在数字化设计中发挥着重要的作用,随着三维光学扫描仪的普及应用,扫描测量数据的处理越来越重要。点云数据光顺和精简是扫描测量数据处理的重要环节,近年来一
模式识别的主要任务就是利用样本中的特征,将样本划分为相应的模式类别。通常情况下,样本特征中包含了足够的类别信息,才能通过分类器实现正确分类。为了提高模式识别的正确
近几年来,我国对医保问题高度重视,医保管理体制不断完善,基本实现了“人人享有基本医疗保险”的目标。随着医疗保险管理系统的运行,系统中的数据量将会逐渐变得庞大。由于医疗保
行为分析是视频理解的重要研究内容之一,它通过分析处理监控场景的图像、视频,获取监控场景的信息或场景中运动目标的信息,并对这些信息进行行为分析和高层次的语义描述,在智能监