论文部分内容阅读
随着互联网的发展,网上信息迅速增加,搜索引擎作为帮助人们从网络中快速获取信息的工具,使用日益广泛。但由于存在许多网页转载的情况,搜索引擎的返回结果中存在重复信息,既浪费了带宽,降低了检索效率,又浪费了搜索引擎的存储空间,同时也给用户带来糟糕的用户体验,这都使得网页查重技术在搜索引擎技术中占据重要的地位。本文研究面向搜索引擎系统的大规模中文网页去重方法,着力解决以下两个问题:第一,近似重复网页的查重问题。由于互联网上转载的内容常采用不同的显示风格或加入评论等其他信息,仅检测完全重复的网页不能满足实际需求,能否检测出近似重复网页成为衡量网页去重算法性能的关键因素。第二,如何在搜索引擎的大规模数据集上实现模糊去重,使程序运行所需时间和空间在可接受的范围是本文实现部分要解决的主要问题。网页查重技术,按照利用的信息类别来分可分为基于URL,基于链接关系和基于网页内容三种。前两种对近似重复网页的检测效果不甚理想,因此目前研究较多的是第三种基于内容的方法,基于特征码的网页去重方法就是其中的一种。它通过提取特征码将网页内容映射到较短的字符串上,再据此定义相似度并判重。该类方法充分利用了中文网页的特点,运算速度快,准确度高,在中文网页去重中应用较多。本文使用一种基于变长特征码的网页去重方法,通过定义独立抽取单元,屏蔽小段落对特征码的影响,克服传统的特征码抗噪性能不佳的问题,使得系统具有良好的模糊去重能力。通过引入基于最长公共子串的重复度定义,以及对模糊匹配的支持,进一步增强了系统的模糊去重能力,为近似网页查重问题提供了更好的解决方法。为了达到更快的运算速度,本文利用广义后缀树求解特征码之间的最长公共子串以加快运行速度。由于数据量大,同时后缀树也需要大量内存空间,本文采用了基于MPI的并行编程环境,实现了在集群环境中多个节点上并行运行的网页去重系统,既解决了内存限制的问题也提高了程序运行的效率。实验结果表明,该算法能高效的去除掉重复网页,在保证去重效果的同时准确率可达到99.03%,达到了预期的效果。