论文部分内容阅读
研究表明,互联网中大约有30%的网页是冗余信息,即这些网页和其余70%的网页文档互为近似重复或完全重复。由于数字文档易拷贝,使得各种信息资源以飞快的速度在增长。信息检索的目的是从海量的文档集合中根据用户的需求检索出相关的文档,大量的冗余文档的存在,给检索系统带来了很大的挑战,降低了检索的性能。因此,文档去重逐渐地成为信息检索领域的一个热点课题。 传统的重复文档检测方法大都数是以单词或n-grams为单位提取特征,造成特征集合过于庞大。针对这个缺点,本文提出了以一个句子块作为文档特征的提取方法——SL+ST算法。把每个文档表示成句子长度序列,使用后缀树快速匹配公共子串。实验使用了两个TREC提供的标准英文文档集,并与三种经典的方法在有效性和效率两方面进行比较,实验结果表明SL+ST算法有着较高的效率和准确率。另外,SL+ST算法可以定位两个文档的重复内容,给出具体的位置信息,这点是其它使用单词或n-grams为单位特征的方法所不能及的,如向量空间模型和它的变体方法。 本文还针对具体的应用场景:发现问题和搜索问题,分别分析了SL+ST算法的运行机制。为了提高文档去重算法在处理大规模文档集的运行效率,提出了两种优化策略:减少计算次数和并行处理。通过对Jaccard相似度的分析,给出了文档相似的必要条件。另外,通过把文档集划分成多个子集,使得每个子集能够单独处理,使用并行处理的方法提高效率。实验分别分析了SL+ST算法在单机和并行处理时的运行效率。单机处理百万内的文档集时效率较高;并行处理时,实验发现随着计算结点的增加,运行效率提高的幅度越来越小。 此外本文还研究了信息检索中的一种特殊的评价方法。不同于传统的评价方法,主要是探讨如何采用较小的数据集合评价一检索系统的性能,然后据此估计其在更大的数据集上的性能。该项研究具有较强的现实意义。研究结果表明回归技术对此问题有一定的作用。