中文学术论文抄袭检测系统研究

来源 :太原理工大学 | 被引量 : 0次 | 上传用户:YT479102771
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文根据中文学术论文的特点,把中文学术论文抄袭检测系统分为基于数据库的关键词匹配数初检模块和内容详检模块两大模块。在第一模块中,利用论文作者自行提取的关键词作为初检对象,通过模糊匹配和精确匹配两种方法对待测文本进行匹配测试。本模块在设计算法时丢弃了常规的循环嵌套匹配算法,而是在数据库中增加了一个count字段,作为临时计数器,这样大大减少了算法的复杂度,提高了运行的速度。第二模块是在第一个模块完成的基础上根据其结果从相似度最大的文档开始对其内容进行一对一的检测。在第二个模块中使用了模式匹配的一种改进算法一一Kh"算法进行匹配测试。它的优势是当每一趟匹配过程中出现失配时,不需回溯指针,而是利用已经得到的部分匹配的结果将模式滑动到尽可能远的一段距离后,继续进行比较。 文章中详细给出了中文学术论文抄袭检测系统的设计方案以及系统结构。并对系统的总体构思,各个模块的功能、特点、算法以及主要代码都作了详细的阐述。 中文学术论文抄袭检测系统面向中文学术论文的抄袭检测。在对30篇相似学术论文的实验中,根据它们的关键词和内容的不同的匹配特征把它们分为三类进行系统性能的匹配测试试验,分别是完全匹配、相似匹配和不匹配。经初检后,将关键词匹配数最多的四篇测试文档与被测文档进行一对一的详检测试,各模块的响应时间都不足1秒。文章中给出了详细的试验设置,并对系统测试的响应时间与文件的大小关系给出了对比分析。 本系统在整个构思上,结合了1:1和1:N两种文本复制检测的思路和方法,避免了它们在检测上的片面性和盲目性。本系统还利用了中文学术论文中有关键词这一特性,避免了中文文本分词所带来的麻烦。综上所述,这套中文学术论文抄袭检测系统既解决了在海量数据库中查找相似文档的问题,又完成了两篇文档的详检任务。总的来说,这套系统功能完整,实用性强,算法上的改进也提高了运行速度,减少了系统开销。是相关人员的有利检测工具。
其他文献
磁共振成像技术(MRI)是近年来医学影像学中有效的诊断途径。但是快速成像以及高分辨率MRI使重构后的磁共振(MR)图像呈现出较大的噪声伪影,影响后续的临床诊断和治疗。用于视
现在企业在发展过程中,由于信息与信息之间的屏蔽,很容易在企业中形成一个个的信息孤岛,即企业中各个部门有各自的生产系统和管理系统,但是各个部门之间由于种种原因造成部门
过去人事职称及教师工作量的评定十分烦琐,都是手工填写,然后人事处进行核对和审查,工作进度缓慢、效率低下。随着学校教工数量增多,这种评定方式已难以适应,因此必须进行现代化管
虚拟化技术通过将应用程序封装到虚拟机,使管理员能够更灵活的部署和迁移虚拟机来适应应用负载和物理资源变化。本文研究了云环境下虚拟机迁移行为对整个数据中心的网络开销
近年来,Internet中涌入了大量的音频、视频等实时流媒体应用,如视频点播、IP电话、远程教育等等。随着无线网络技术的迅速发展,实时流媒体流业务将在无线网络中得到广泛的应
虹膜是环绕在瞳孔周围那一圈有颜色和凹凸不平的纹理结构的环状组织,科学家将虹膜划分为30多个区,每个区域对应人体的一种器官,虹膜诊断学通过观察虹膜纹理的形状,深度以及所
随着云计算技术的迅猛发展,越来越多的用户将他们的数据外包给云服务器,以减轻其复杂的管理任务,为了确保存储在不可信云服务器中敏感信息的安全性,数据拥有者会先施行加密操
随着信息化社会的到来,多媒体技术及智能信息处理技术的迅速发展,各行业对图像的使用越来越广泛,图像信息资源的管理和检索显得日益重要。怎样有效地组织管理和检索这些大规
在嵌入式系统中集成TCP/IP协议,将嵌入式系统接入Internet(互联网),已经成为嵌入式技术发展的重要方向。但随着互联网规模的不断扩大,尤其是大量的嵌入式设备接入后,IPv4已逐
随着信息量爆炸性的增长,人们很难从大量的信息中迅速有效的提取出所需信息,出现所谓的“信息迷向”的现象。如果计算机能够在信息的辨识和处理方面,对用户提供适当的支持和帮助