论文部分内容阅读
研究一种高效的文本信息查重算法,对电子商务网站的相似信息进行自动归类排序,大幅度提高信息审核效率与正确性。测试表明,信息数量在100-1000条时,该算法十分有效,1000条的文本信息相互比较可控制在2秒之内。信息数量超过1000条后,计算时间会大幅度上升。可通过调整算法中相关参数来调整精度。对于过短信息(少于10个字),可将本算法与Levenshtein算法相结合,以提高该文本信息查重算法的灵活性。