基于重复串的STC网页去重算法研究

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:dxc1989120
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息呈指数级的不断膨胀,如何从这个信息的海洋快速获得真正有价值的信息变得至关重要。搜索引擎应运而生,提供了在互联网上搜索信息的功能。然而在搜索引擎返回的检索结果中,存在大量的重复网页,其中大部分网页主要来自网站之间的转载。这些冗余网页既占用了网络带宽,又浪费存储资源,如何有效消除这些重复网页,提高检索的准确率,节省用户的时间和精力,提高用户满意度,成为当今搜索引擎领域中一个重要的研究方向。因此,网页去重工作有着十分重要的研究意义。  本文在深入学习数据挖掘知识的基础上,对搜索引擎工作原理进行剖析,对现有去重算法进行了分析。重点对STC算法和重复序列算法进行了详细比较,对两种算法进行性能测试后,分析二者利弊,提出一种基于重复串的STC改进算法,核心思想是对字符重复串进行抽取,使用重复串作为短语标引生成后缀树,并映射生成倒排索引进行STC算法去重。实验证实了改进算法有着良好的准确率和召回率,并有着优良的时间和空间特性。  为了验证所提出算法的有效性并比较其去重效果,本文开发了一个搜索引擎实验原型系统,完成了该系统的总体设计和各个模块的设计工作,通过该系统实现了算法的改进,并验证了其有效性。  在实验过程中,首先对算法进行了编辑测试语料的模拟实验,将一篇文档内容进行标题和正文的删除、修改后生成修改文档。使用改进算法将修改文档与原文进行相似度判断。结果表明,算法能有效判定文档相似度。然后在实现了该算法的搜索引擎实验原型系统中,进行互联网实测。实验结果表明,本文的改进算法具有较高的召回率、去重准确率和较低的漏删率及误删率。  本文的研究成果和搜索引擎实验原型系统在信息急剧膨胀的时代,具有较高的应用价值和推广意义,同时也具有良好的社会效益和经济效益。
其他文献
XML正迅速取代HTML成为Web上数据表示、集成和交换的标准。与HTML相比,XML简单、自我描述,实现了内容、结构和表现三者的分离,更适合于数据表示和交换。近年来,XML技术在各种
随着市场经济的发展,在医院药品流通领域的管理者必须从事各种管理、决策活动。由于药品资金占用了医院的大部分流动资金,且药品的种类多、新产品多、进货渠道多、管理环节多而
地震数据数量庞大,处理复杂,如何有效、快速地对其进行处理已成为近代科学研究的重要分支之一。计算机科学、信息技术的兴起,使得地震数据处理软件得以出现并不断发展起来。计算
计算机动画是计算机图形学与艺术相结合的产物,是伴随计算机硬件和图形算法发展起来的高新技术,变形技术是计算机动画的一个重要研究方向。本文的工作主要是研究有效的2Dmorphi
“国电物资管理系统”是一个业务覆盖全国电厂供应商、面向中国国电集团公司及其所属电厂的电子商务平台。本文对该系统的体系结构、功能设计、以及系统平台选择方面作了完整
目前,我国地球物理学者针对重磁数据处理方法的研究在技术上已达到了高水平,但这些研究的处理结果只有以抽象的形态呈现在人的脑海中,将重磁数据或处理完成的数据可视化的研究并
三维可视化在医学辅助诊断、手术仿真、医疗教学等方面应用广泛,GPU使其大范围应用成为可能。结合GPU的发展趋势,本文对三维可视化算法中GPU加速的直接体绘制算法进行深入研
工作流管理技术一直是计算机研究和应用领域的一个热点,它是实现企业业务过程重组、过程管理和过程自动化的核心技术。工作流管理系统的主要目标是通过调度和分配有关的信息资源与人力资源来协调业务过程中的各个环节,以促使业务目标的高效实现。虽然从上个世纪八十年代以来工作流技术在理论研究和实践经验方面已经取得了很多成果,但随着应用的逐步深入,工作流技术还存在很多不够成熟的地方和瓶颈问题需要进一步研究和发展,这对
近几年,随着Internet的飞速发展,网络的信息量与日俱增。XML作为一种可扩展标记语言(Extensible Markup Language),正在成为各种数据交换事实上的标准,得到了极其广泛的应用。XML不
搜索引擎技术的出现帮助为web用户在浩如烟海的WWW上快速发现、定位信息带来了福音,目前搜索引擎已经是WWW上除Email之外使用最多的服务。目前搜索引擎面临的主要困难之一是We