网页消重算法研究

来源 :湖北工业大学 | 被引量 : 0次 | 上传用户:tt_lang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet上超过80亿个网页的海量数据使互联网成为当今世界上最大的信息库和全球范围内传播信息的最主要渠道,也为广大用户提供了一个巨大价值的,广阔的获取信息的渠道。但当我们使用搜索引擎在互联网中搜索信息的时候总是经常会出现大量的重复信息,具体表现为搜索引擎的搜索结果极为庞大,在这浩瀚的数据中寻找我们需要的信息无异于是大海捞针。这是搜索引擎领域亟待解决的一个问题。网页消重是搜索引擎领域里一个重要环节。由于网页中存在难以辨别的模板信息,广告等噪音,当前常用的检测算法都无法有效排除这一影响,所以都存在根本性的缺陷。 本文提出了两种网页消重检测算法能有效解决这一问题。并将这两种算法跟两种常见的算法进行了对比测试,用实验证明了这两种算法的优点。 本文在大量实验和数据分析的基础上,得到了如下研究成果和结论: 1)提出了一种基于单一MD5指纹的网页消重高效检测算法。该算法对网页正文块(可见文字)进行排序,选取最大的t个文本块,将这些文本块连接在一起,生成一个代表该网页的MD5指纹,若两个网页有相同的指纹则认为他们是近似网页。 2)提出了一种改进的基于关键词匹配和向量空间模型的近似网页检测算法。该算法对网页正文块(可见文字)进行排序,选取最大的t个文本块,从这些文本块中提取代表网页的特征值,最后对特征值提取网页指纹并进行对比,得出最终结果。 3)最后将本文提出算法跟两种常见的算法进行了对比,并用实验证明了本文提出的算法的优点,这两种算法在时间复杂度、空间复杂度、召回率等性能指标都要优于两种常见算法。
其他文献
3D数据获取技术、图形硬件、三维数据模型和可视化技术的发展,致使3D模型的增多。三维扫描技术与造型工具的日益普及,扩展了可供使用的三维模型数据库;互联网络的扩张增强了
随着多媒体技术的发展,大屏幕显示系统已经广泛应用到政府、军队、企事业单位等等各行各业。但高端的大屏幕电视墙的昂贵的价格使得它很难在大范围推广应用,然而随着图形媒体
互联网的规模在不断地膨胀,多种网络类型的融合使其异构性不断地提高,它正变得越来越复杂,随之产生的问题也越来越多。为了提供一个稳定、高效、安全的运行网络,网络管理的重
纹理合成经过近年来的发展,已经成为计算机图形图像以及计算机视觉方向的研究热点。本文在基于样图的纹理合成技术的基础上,对用户约束下的多样图纹理合成做了研究,并对现有
时空数据库技术是计算机科学的新兴领域。面对着海量的数据,如何在给定的空间及时间范围内实现对移动对象快速有效地查询,是实现定位服务、智能交通、数字化战争等诸多应用中
软件测试是保证软件质量最为有效的技术手段,测试数据的优劣决定了软件测试的有效性。在不影响测试效果的前提下,减小测试用例集的规模将有效地减少测试成本,提高测试效率。
嵌入式系统开发是当今计算机软件发展的一个热点。嵌入式系统调试器是进行嵌入式开发的关键工具,常用于对嵌入式软件的调试和测试。嵌入式系统调试器由交叉调试器和调试代理
大学生综合素质发展测评是高校学生管理的重要内容之一,传统的描述性的定性评价方法往往是定性分析或者单因素的定量评价,往往存在主观片面,不够准确、不够全面的问题,已经不能适
近20年以来,随着国家经济的飞速发展,对能源的需求日益俱增。从而对各种勘探与解释方法要求也越来越高。特别是对石油勘探中的主要手段地震勘探要求更高。地震数值模拟技术是
随着存储规模日益扩大,存储网络的多样性和异构性,资源分布的广阔性和动态性,都对数据的存储管理方式和访问方式提出了新的要求和挑战。面向广域网的存储资源发现技术研究,旨