论文部分内容阅读
在自然语言处理(NLP)的过程中,文本相似性检测一直是一个相对重要的课题。当前,单语言文本之间的相似性检测算法已经趋于成熟,然而随着跨语言信息检索技术快速兴起以及国际之间学术交流的日益密切,造成了跨语言相似文本越来越多的存在。因此,跨语言文本相关性的度量就变得尤为重要。本文总结了已有的单语言文本相似性计算方法,研究了跨语言信息检索的相关内容以及当前流行的几种跨语言文本相关性检测算法。结合我国跨语言抄袭主要集中于中英文语言之间的现状,做了如下研究:(1)针对跨语言文本相关性检测过程中需要利用机器翻译技术快速检索相似文本候选集的问题,论文探索了当前主流的中文机器翻译工具在中英文文本相关性检测过程中应用的可行性。论文对不同粒度的文本应用机器翻译进行了文本转换,分析了各粒度文本下的实验结果,最终提出一种基于二元组与句子相结合的机器翻译算法,该算法具有较高的翻译比对效率,同时兼具较好的准确率和召回率。最后,论文将该算法与Minwise Hash算法进行结合实现了相似文本候选集的快速遴选。(2)针对跨语言文本相关性检测算法CL-ESA算法中算法性能主要受索引文档集质量影响的问题,论文提出了基于聚类的索引文档选取算法。算法通过将聚类算法应用于索引文档选取的过程中,确保了索引文档集中的文档具有较好的区分度和质量。最终实验结果表明,算法不仅改善了CL-ESA算法的召回率,同时提高了算法的时间性能。