论文部分内容阅读
随着互联网的发展,信息的传播成本逐渐变低,大部分文档可以被随意转载、传播、修改、增加格式、增加评论,这将导致大量相似甚至重复的文档产生,这些相似或重复的文档不但在信息检索环节和存储环节中会耗费大量计算资源,而且只能给用户提供少量有效信息甚至不能提供有效信息,这无疑将严重影响互联网数据的质量和信息的传播效率。因此,为提高数据质量和信息传播效率,缩减不必要的资源耗费,提出一种高效的、可以处理海量文档的文档去重方案势在必行。传统的基于聚类的去重方案虽然去重精度较高,但不能解决大规模文档的去重问题,基于simhash的去重方案虽然可以解决海量文档的处理效率问题,但去重精度并不理想。针对上述现状,本文通过先建立统一的文档向量模型,再对特征维度做精准加权,然后对文档向量哈希映射,最终通过检测哈希码的相似度来达到检测海量文档中相似文档的目的,提出一种基于主题的海量中文文档去重方案。本文的主要贡献有:针对文档向量容易出现高维、稀疏的缺点,本文提出一种基于word2vec的文档向量降维方法。该方法利用word2vec的语义分析特性,将语义相关的特征词用一个主题词乘以合适的系数来代替,经实验证明该方法有效地浓缩了特征词袋,降低了文档向量的维度,使更多的特征信息存储在维度较低的向量中。针对经典的TF-IDF词权算法仅考虑特征词的词频、逆向文档频率的特征权重,而不考虑特征词的其它权重的问题,本文在分析、总结中文的表达习惯后,提出一种基于特征词的词性和位置自适应权重的TF-IDF改进算法。该改进算法可以根据每篇文档中名词和动词的比例和特征词出现的位置,动态地确定该特征词的词性权重和位置权重,经实验证明该改进算法有效提高了文档特征加权的精准度和自适应性。针对海量文档的去重处理规模过于庞大的问题,本文提出了基于LSH的海量中文文档去重方案,该方案将经降维处理和TF-IDF改进算法加权过的文档向量作为输入,经局部敏感哈希(LSH)算法再次哈希降维,最终把精准的文档向量映射为一个二进制的哈希值,进而通过检测这些二进制哈希值的汉明距离相似度,达到文档去重的目的,经实验证明该方案提高了去重精准度。