基于段落指纹的大规模近似网页检测算法研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:jimmycjriyue
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的飞跃式发展,互联网进入了一个信息爆炸的时代,搜索引擎成为了人们获取信息最主要的途径。然而,互联网上存在很多近似网页,一方面加重了用户从中寻找有价值信息的负担,另一方面,为近似网页建立索引消耗了大量不必要的存储和计算资源,进而影响整个搜索引擎的质量和性能。可见,对网页进行近似检测不仅能够提高索引效率,节约存储资源,同时能够显著地提升搜索引擎的用户体验。本文首先对近似网页检测的研究现状做出综述,并对现有算法做出深入分析。随后,提出了一种基于加权DOM树的网页正文提取算法,通过实验验证了该算法在各类网页集上均获得高的正文提取准确率,并将其应用于本文的近似网页检测算法。接着,提出了一种基于段落指纹的近似网页检测算法,该算法充分利用了中文语言的语法结构、文章主题语义和HTML标签语义,实验数据表明,本文算法能够获得高的准确率和召回率。实现了三种已有的优秀近似网页检测算法,实验数据表明,本文算法在准确率、召回率、效率和指纹占用的存储资源这些关键方面均有优势。最后,基于MapReduce计算模型,对本文近似网页检测算法的并行化做出了深入研究,给出了详细的并行化设计方案,并在Hadoop分布式平台上实现了该方案。在不同的Hadoop集群规模下进行实验,数据表明,本文算法经过并行化设计后,效率得到了显著提升,很好地突破了单机处理的资源瓶颈,是一种能够适用于海量数据规模的且实际可行的方案。
其他文献
随着现代控制技术和计算机技术的迅速发展,以单片机为核心的控制终端控制系统在工业自动控制工程领域中取得了很大的发展,尤其在地理环境恶劣,无人值守,作业点分散,频发小数
为了简化组网结构,提高组网可靠性,网络设备虚拟化技术应运而生。然而随着交换网络面临越来越高的要求,其可靠性、可用性、可管理性等多方面都面临越来越高的挑战,传统的虚拟
射频识别(RFID, Radio Frequency Identification),是一种实现非接触式信息识别和采集的技术。通过RFID系统中读写器设备读取电子标签中的信息,将信息交付给用户或者服务器做
粗糙集理论是一种有效的数据分析工具,它可以处理不确定、不精确、不完备、不一致的数据。然而,经典粗糙集理论是基于严格等价关系的,在处理实际应用中的数据时具有一定的局限性
随着现有的智能家电设备的功能性以及智能家居服务的广泛性的迅速发展,给人们带来的便利有目共睹,可是问题也是层出不穷。除了设备异构性导致的设备互操作困难,应用程序和设
当下医疗行业存在巨量的影像数据,它们对疾病诊断与疗效评价具有重要研究意义。本文将糖尿病患者的视网膜眼底图作为数据集,进行深度学习算法的应用研究。在算法上对于糖尿病
近些年来,由于计算机及信息技术的高速发展,人们获取数据的能力极大的提高,数据流作为一类重要的数据来源,越来越受到关注。数据流是连续的、快速变化的、有序的、海量的数据,不同
近年来,对等网络(P2P网络)由于自身的自治性、扩展性、容错性等方面的优势,获得了快速发展。基于P2P网络的应用已远远超越简单的文件共享,在大规模互联网应用等方面显示出巨大的潜
无线传感器网络集成了传感器、微机电系统、嵌入式计算、分布式信息处理和网络通信五大技术,是一种全新的信息获取和处理技术。它能够协作地实时监测、感知和采集网络覆盖区
薪资计算系统是现代企业管理系统的重要组成部分。传统的开发方式是将复杂的业务逻辑和处理流程耦合在代码之中,使得薪资计算系统普遍存在操作复杂、结构臃肿、扩展性差的问