基于特征码的大规模中文网页并行去重方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:fhdfhdfrtr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,网上信息迅速增加,搜索引擎作为帮助人们从网络中快速获取信息的工具,使用日益广泛。但由于存在许多网页转载的情况,搜索引擎的返回结果中存在重复信息,既浪费了带宽,降低了检索效率,又浪费了搜索引擎的存储空间,同时也给用户带来糟糕的用户体验,这都使得网页查重技术在搜索引擎技术中占据重要的地位。本文研究面向搜索引擎系统的大规模中文网页去重方法,着力解决以下两个问题:第一,近似重复网页的查重问题。由于互联网上转载的内容常采用不同的显示风格或加入评论等其他信息,仅检测完全重复的网页不能满足实际需求,能否检测出近似重复网页成为衡量网页去重算法性能的关键因素。第二,如何在搜索引擎的大规模数据集上实现模糊去重,使程序运行所需时间和空间在可接受的范围是本文实现部分要解决的主要问题。网页查重技术,按照利用的信息类别来分可分为基于URL,基于链接关系和基于网页内容三种。前两种对近似重复网页的检测效果不甚理想,因此目前研究较多的是第三种基于内容的方法,基于特征码的网页去重方法就是其中的一种。它通过提取特征码将网页内容映射到较短的字符串上,再据此定义相似度并判重。该类方法充分利用了中文网页的特点,运算速度快,准确度高,在中文网页去重中应用较多。本文使用一种基于变长特征码的网页去重方法,通过定义独立抽取单元,屏蔽小段落对特征码的影响,克服传统的特征码抗噪性能不佳的问题,使得系统具有良好的模糊去重能力。通过引入基于最长公共子串的重复度定义,以及对模糊匹配的支持,进一步增强了系统的模糊去重能力,为近似网页查重问题提供了更好的解决方法。为了达到更快的运算速度,本文利用广义后缀树求解特征码之间的最长公共子串以加快运行速度。由于数据量大,同时后缀树也需要大量内存空间,本文采用了基于MPI的并行编程环境,实现了在集群环境中多个节点上并行运行的网页去重系统,既解决了内存限制的问题也提高了程序运行的效率。实验结果表明,该算法能高效的去除掉重复网页,在保证去重效果的同时准确率可达到99.03%,达到了预期的效果。
其他文献
当今计算机网络发展迅速,网络的行为方式也越来越社会化,即网络中分布的个体根据各自的策略来决定自己的行为,这种策略性分布式系统随着网络服务模式的改革而变得越来越重要,
图像压缩给图像各方面的应用带来了很大的便利,数码相机、遥感、传真、医疗以及电子商务等多个领域的图像压缩研究使压缩技术越来越成熟和多元化。小波变换是一种数学方式,近
当代的计算机应用程序大部分是多媒体应用,包括音视频处理,图像处理,3D绘图,语音识别等,这就对处理器提出了更加严格的实时性要求。因此,多媒体SIMD扩展结构,已经逐渐为通用
伴随着信息技术的飞速发展,计算机已经成为人们最重要的生产、生活工具。块存储设备作为计算机的主要数据存储设备,携带着大量的机密信息和重要数据。由于丢失、被盗或者未经
随着Internet技术和企业信息化建设的发展,电子商务以其迅猛的速度进入人们的日常生活。电子商务的发展对传统的Web技术提出了强有力的挑战。由于电子商务的内部逻辑复杂,安全
句法分析是自然语言处理的关键技术,依存关系解析是句法分析的方法之一,这种方法解析句子词语间的依存关系,依存关系可以明确地表明词语间的支配关系,并能方便地转化为语义依
解决问题的方法也叫做算法,并不是计算机科学的专有名词,早在几千年前就有该方面的研究,当时把其认为是数学的一个分支。计算机的出现使得人们能够利用计算机模拟并解决实际问题
随着Internet技术的迅速发展,网络入侵问题也越发严重,入侵检测己成为网络防护安全体系中的重要组成部分。入侵检测系统通过从计算机网络或计算机系统中的若干关键点收集信息
目前,由于我国支票使用总量的年年增加,给银行业务带来很大的工作量和压力。影像化支票自动识别作为解决此问题的一种计算机应用技术,已经越来越多的受到人们的重视和研究。而在