论文部分内容阅读
抄袭识别属于文档复制检测技术的一种应用类型,它是提高学术论文质量、净化学术环境的一种重要措施。抄袭识别就是判断某篇给定文档是否抄袭了其他一篇或多篇文档的内容,具体包括完全抄袭、大部分抄袭和少部分抄袭。本文首先阐述了汉语文本抄袭识别的意义和文档复制检测技术的基本原理,并简要介绍了几个典型的文档复制检测原型系统、抄袭识别工具及在线服务网站的功能和特点。其次,总结了中文分词方法及几种现有的分词系统,作为后续研究的基础。再次,介绍并分析了各种现有文本相似度算法及其优缺点,在此基础上,提出了多层次特征融合的相似度算法,利用此算法比较文档间的相似情况,从而在已有文档中确定待测文档的相似文档。本研究系统首先采用关键词相似度计算、类号比较、基于字符匹配的文档题名和摘要相似度计算来计算文档间相关性,从而找出文档库中与待测文档相关的文档;然后将自动分词后的文档正文进行停用词过滤、“重构”(即同义词转换),把重构后的有意义的实义词结点集合看作初始文档的词条集合,利用基于集合模型的相似度方法计算待测文档正文与相关文档正文内容间的相似度值,从而确定相似文档。然后基于公共子串的思想,构建了无重复最长公共子串求解算法和基于分词的无重复最长公共子串的求解算法,分别利用这两种文本比较算法求出待测文档与相似文档间的“公共内容”,生成相似报告,从而对于抄袭判断给予合理的解释,也即例证。接着,描述了同义词表、分类表等各种词表的构建方式,在现有抄袭识别工具的功能、特点研究基础上,解决了1∶n的中文文档间相似度计量、定位相似内容等难点问题,设计并实现了一个面向学术期刊论文的汉语文本抄袭识别原型系统。最后,解释实验数据的选择,阈值的设置,并利用测试文档对本文提出的多层次特征融合型相似度算法和两种文本比较生成相似报告的方法进行了测评,同时总结了笔者所做的主要工作、本文的创新之处及进一步的工作设想。