跨语言文本相关性检测技术研究

来源 :中南大学 | 被引量 : 0次 | 上传用户:joinrootcn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在自然语言处理(NLP)的过程中,文本相似性检测一直是一个相对重要的课题。当前,单语言文本之间的相似性检测算法已经趋于成熟,然而随着跨语言信息检索技术快速兴起以及国际之间学术交流的日益密切,造成了跨语言相似文本越来越多的存在。因此,跨语言文本相关性的度量就变得尤为重要。本文总结了已有的单语言文本相似性计算方法,研究了跨语言信息检索的相关内容以及当前流行的几种跨语言文本相关性检测算法。结合我国跨语言抄袭主要集中于中英文语言之间的现状,做了如下研究:(1)针对跨语言文本相关性检测过程中需要利用机器翻译技术快速检索相似文本候选集的问题,论文探索了当前主流的中文机器翻译工具在中英文文本相关性检测过程中应用的可行性。论文对不同粒度的文本应用机器翻译进行了文本转换,分析了各粒度文本下的实验结果,最终提出一种基于二元组与句子相结合的机器翻译算法,该算法具有较高的翻译比对效率,同时兼具较好的准确率和召回率。最后,论文将该算法与Minwise Hash算法进行结合实现了相似文本候选集的快速遴选。(2)针对跨语言文本相关性检测算法CL-ESA算法中算法性能主要受索引文档集质量影响的问题,论文提出了基于聚类的索引文档选取算法。算法通过将聚类算法应用于索引文档选取的过程中,确保了索引文档集中的文档具有较好的区分度和质量。最终实验结果表明,算法不仅改善了CL-ESA算法的召回率,同时提高了算法的时间性能。
其他文献
ITU-T的新一代视频编解码标准H.264,相对于先前的视频编码标准,能在相同码率下提供很好的视频图像质量。随着H.264常见的三种开源代码的公开,如何有效地在实际应用系统和工程中
随着网络资源的不断扩展和所提供业务的不断增加,电信网、广播电视网和计算机通信网之间的相互渗透、相互融合,实现三网合一,为用户提供综合业务是必然的发展趋势。新型HFC网
随着媒体压缩技术和宽带网络技术的飞速发展,以远程音视频交互为特色的流媒体业务已成为目前行业内最迫切的需要,而媒体播放器是实现流媒体业务的关键部分,因此,播放器的性能也就