相似网页识别算法的研究与实现

来源 :北京邮电大学 | 被引量 : 8次 | 上传用户:nzj66
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的诞生和发展,深刻的改变着人们的生活,极大地推动着社会的发展与进步,尤为值得一提的是互联网已经成为人们获取信息的一个非常重要的途径,互联网已经成为人们沟通、交流的重要平台。互联网为人们提供大量的信息资源,大大方便了人们获取信息的效率,但是互联网上同样存在大量的重复的、相似的网页信息,这些信息对人们来说意义不大,反而成为一种麻烦,甚至带来无谓的资源消耗。因此如何识别出这些相似的网页信息是一个值得研究的课题。本文描述了当前国内外相似网页识别技术研究的背景,深入研究了相关的相似网页识别算法,对比分析各方法的优势与不足。并针对经典DSC算法、Simhash算法的不足,寻求积极改进措施:将基于<单词,权重>的Simhash算法改进为基于<单词序列,序列权重>的相似网页识别算法。序列权重计算时,融入单词之间的相对位置信息、网页自身结构特点信息等,而不仅仅是Simhash中的单词词频信息,从而更加全面的包含网页信息,求得算法性能的改善。本文最后基于改进的算法,构建简单的测试系统,通过互联网上真实的网页数据,对改进算法的有效性进行检验,并针对实验结果,进行分析。定义准确率和召回率,对改进后的算法效果与DSC算法、Simhash算法进行对比,做出总结。
其他文献
随着网络的普及和居民消费需求的提升,网络购物这种新型消费模式迅猛发展,使面向普通消费者的快递物流业成为了物流行业新的爆发点。电商对物流的时效性要求越来越高,使得快
随着信息化的推进,软件应用的领域越来越广泛,软件本身的复杂性也随之加大。如何保证软件质量一直是计算机技术的热门研究领域。单元测试是保证软件质量的重要环节。如何解决
随着信息技术的迅速发展,社会网络变得无处不在,从生物学到互联网,从大型的电力网到人际关系网等等。从大量的数据中提取有效的、可信的、新颖的信息的数据挖掘成为了当今的
网络协议分析工具是一套软件工具套件,主要是用于分析网络协议的数据以及状态等信息,通过捕获和过滤原始数据,获得大量网络数据基本信息,并对原始数据进行分析。从而达到分析
以2009年3G网络正式投入运营为标志,中国移动互联网产业进入飞速发展时期,与此同时,智能手机也开始流行。智能手机和3G网络的兴起使不良信息在移动互联网中的传播有了更好的硬件
搜索引擎质量评价是一个非常重要的问题。对于使用者,它可以帮助他们选择合适的搜索引擎,找到满足信息需求的信息;对于搜索引擎的研究和开发人员,它能够帮助他们比较各组件算
EAST低温系统为中科院等离子体物理研究所自主设计制造,为EAST各冷质部件提供超临界氦迫流冷却,设计制冷量为1050 W/3.5K+200 W/4.5 K+13g/s LHe+(13~25)kW/80K,设计当量制冷
随着集成电路工艺和设计技术的不断进步,芯片的集成度不断提高,单块芯片上集成的功能部件越来越多。复杂系统芯片中,各功能部件往往通过片内总线共享片外主存,访存性能成为制约性
本文介绍了作者在面向嵌入式C语言的软件测试方面所做的工作,包括嵌入式C缺陷模型的描述以及使用扩展的缺陷模式状态机进行缺陷检测,通过设计缺陷模式的统一描述和统一检测框
紫外光通信作为一种新型的无线光通信技术,由于其自身的特点,具有保密性好、抗干扰能力强、全天候全方位性工作等特点。近几十年来,紫外光通信受到越来越多的重视,尤其适用在