论文部分内容阅读
抄袭是指使用其他作者的内容、思想或观念等作为自己的原创作品,而不做任何引用或参考标志的现象。当今是一个全球化的信息世界,互联网已经成为主要信息访问媒介。无论是用户的母语或非母语信息,几乎都可以在互联网上得到,这便使得抄袭现象日益加剧。抄袭几乎可以在每一个领域中找到,但它是在学术方面的问题更为严重。目前,有许多可用的商业性和非商业性抄袭检测软件。然而,大部分抄袭检测系统只针对于单一语言抄袭的现象,只能检测出完全复制或简单修改行为的抄袭文本,对于隐蔽性较大跨语言的抄袭案件,则很少有学者进行研究。根据研究任务的不同,Pan@CLEF2012将抄袭检测可以分为源检索和文本对齐个子任务。而文本对齐任务又可以分为种子搜索和文本合并两个子阶段。本文以跨语言抄袭检测为研究对象,针对跨语言抄袭检测中的源检索与文本对齐任务展开研究,具体研究内容包括:首先,针对源检索阶段,尚无有效的关键词提取方法的问题,本文结合文本的特点,实现了一种基于小片段的关键词提取方法。第二,本文针对跨语言抄袭检测的种子搜索阶段,仅采用译文文本的特征,未能全面的考虑文本的译文和双语特征这一问题,本文提出了一种将译文和双语特征相融合的种子搜索算法。最后,针对Pan@CLEF2012第一名的抄袭检测方法的片段合并阶段,在时间效率上尚有提高的空间。本文提出了一种基于动态规划思想的合并算法,在合并过程中采用动态规划的思想,通过减少文本合并时的重复计算时间,来优化合并算法。实验证明,本文提出的基于小片段的关键词提取方法,用于跨语言抄袭检测的数据,使得跨语言源检索任务上的性能得以提升;本文提出的融合译文和双语特征的种子搜索方法,使得跨语言抄袭检测的整体评测指标得以明显提升;另外,本文提出的基于动态规划的合并算法,在时间性能上不仅对合并阶段的时间进行了优化,还对整个跨语言抄袭检测系统的时间进行了优化。本文的研究成果不仅为跨语言抄袭检测提供新的解决策略、具体方法和支撑技术,提升文本抄袭检测的质量,弥补了跨语言抄袭检测系统的不足,提高了跨语言抄袭检测的检索速度、召回率和精确率,同时,还为众多以文本相似度计算为研究内容的问题,提供了新的解决思路和重要参考。