汉语文本抄袭识别系统研究

来源 :南京农业大学 | 被引量 : 0次 | 上传用户:saiuggidia
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
抄袭识别属于文档复制检测技术的一种应用类型,它是提高学术论文质量、净化学术环境的一种重要措施。抄袭识别就是判断某篇给定文档是否抄袭了其他一篇或多篇文档的内容,具体包括完全抄袭、大部分抄袭和少部分抄袭。本文首先阐述了汉语文本抄袭识别的意义和文档复制检测技术的基本原理,并简要介绍了几个典型的文档复制检测原型系统、抄袭识别工具及在线服务网站的功能和特点。其次,总结了中文分词方法及几种现有的分词系统,作为后续研究的基础。再次,介绍并分析了各种现有文本相似度算法及其优缺点,在此基础上,提出了多层次特征融合的相似度算法,利用此算法比较文档间的相似情况,从而在已有文档中确定待测文档的相似文档。本研究系统首先采用关键词相似度计算、类号比较、基于字符匹配的文档题名和摘要相似度计算来计算文档间相关性,从而找出文档库中与待测文档相关的文档;然后将自动分词后的文档正文进行停用词过滤、“重构”(即同义词转换),把重构后的有意义的实义词结点集合看作初始文档的词条集合,利用基于集合模型的相似度方法计算待测文档正文与相关文档正文内容间的相似度值,从而确定相似文档。然后基于公共子串的思想,构建了无重复最长公共子串求解算法和基于分词的无重复最长公共子串的求解算法,分别利用这两种文本比较算法求出待测文档与相似文档间的“公共内容”,生成相似报告,从而对于抄袭判断给予合理的解释,也即例证。接着,描述了同义词表、分类表等各种词表的构建方式,在现有抄袭识别工具的功能、特点研究基础上,解决了1∶n的中文文档间相似度计量、定位相似内容等难点问题,设计并实现了一个面向学术期刊论文的汉语文本抄袭识别原型系统。最后,解释实验数据的选择,阈值的设置,并利用测试文档对本文提出的多层次特征融合型相似度算法和两种文本比较生成相似报告的方法进行了测评,同时总结了笔者所做的主要工作、本文的创新之处及进一步的工作设想。
其他文献
2016年12月20日,中国电视艺术家协会行业电视委员会换届工作会议暨行业电视发展高峰论坛在北京举行.rn中国视协主席赵化勇、分党组书记兼秘书长张显、分党组成员兼副秘书长张
期刊
古代世界各国在经历原始社会、奴隶社会和封建社会的历史长河中创建了档案,受社会需求因素的影响,形成和推动了档案工作的发展。因此,社会环境与档案工作传统的迥异,使古代中
公共档案馆的发展是社会历史发展的必然趋势。在国内外环境因素的共同作用下,我国形成建设公共档案馆的热潮。国外,受西方国家公共档案馆理论与实践发展的影响和启发。国内,
档案用户是档案利用工作开展的主体,档案用户研究也一直是档案学研究的重要组成部分。围绕档案用户“以人为本”的服务理念已经得到档案界的普遍认可,要为用户提供满意的服务
近几年来,档案学对信息传播研究的力度正逐渐加大,档案信息传播问题已逐渐受到档案学者的重视,在档案学的专著、教材及学术文章中都有所体现。但从整体上看,目前的一些研究尚处于
突发公共事件始终伴随着人类文明的发展,从早期的自然灾害到近代工业革命的技术事故、环境灾害,可以说突发公共事件是人类文明进步的影子;当今,随着全球化浪潮的不断深入,信
期刊
随着网络技术与计算机技术的迅猛发展,远程教育作为一种新的教育模式应运而生并逐步发展起来。要发展现代远程教育,不仅要为学生提供优质的学习资源,也要为管理员提供更为便
基于一个N×N的等谱特征值问题,利用屠格式导出了广义多变元AKNS孤立子方程族.并且,它是Liouville可积的.另外,这一族方程可约化为著名的非线性薛定谔方程.
网格技术出现于20世纪末。目前对网格技术的研究已成为分布式计算、互联网技术的发展方向。它将对人们的思维模式、生活方式和工作环境产生巨大的影响,并成为未来引领全球信息