论文部分内容阅读
目前文本去重算法主要以基于信息指纹去重、特征码去重为主,用上述算法去重时容易产生误判。本文提出了一种改进的算法,核心思想是对字符重复串进行抽取,使用重复串作为短语标引生成后缀树,并映射生成倒排索引进行STC算法去重.实验证实了改进算法有着良好的准确率和召回率,并有着优良的时间和空间特性。