论文部分内容阅读
本文根据中文学术论文的特点,把中文学术论文抄袭检测系统分为基于数据库的关键词匹配数初检模块和内容详检模块两大模块。在第一模块中,利用论文作者自行提取的关键词作为初检对象,通过模糊匹配和精确匹配两种方法对待测文本进行匹配测试。本模块在设计算法时丢弃了常规的循环嵌套匹配算法,而是在数据库中增加了一个count字段,作为临时计数器,这样大大减少了算法的复杂度,提高了运行的速度。第二模块是在第一个模块完成的基础上根据其结果从相似度最大的文档开始对其内容进行一对一的检测。在第二个模块中使用了模式匹配的一种改进算法一一Kh"算法进行匹配测试。它的优势是当每一趟匹配过程中出现失配时,不需回溯指针,而是利用已经得到的部分匹配的结果将模式滑动到尽可能远的一段距离后,继续进行比较。
文章中详细给出了中文学术论文抄袭检测系统的设计方案以及系统结构。并对系统的总体构思,各个模块的功能、特点、算法以及主要代码都作了详细的阐述。
中文学术论文抄袭检测系统面向中文学术论文的抄袭检测。在对30篇相似学术论文的实验中,根据它们的关键词和内容的不同的匹配特征把它们分为三类进行系统性能的匹配测试试验,分别是完全匹配、相似匹配和不匹配。经初检后,将关键词匹配数最多的四篇测试文档与被测文档进行一对一的详检测试,各模块的响应时间都不足1秒。文章中给出了详细的试验设置,并对系统测试的响应时间与文件的大小关系给出了对比分析。
本系统在整个构思上,结合了1:1和1:N两种文本复制检测的思路和方法,避免了它们在检测上的片面性和盲目性。本系统还利用了中文学术论文中有关键词这一特性,避免了中文文本分词所带来的麻烦。综上所述,这套中文学术论文抄袭检测系统既解决了在海量数据库中查找相似文档的问题,又完成了两篇文档的详检任务。总的来说,这套系统功能完整,实用性强,算法上的改进也提高了运行速度,减少了系统开销。是相关人员的有利检测工具。