基于文本结构和内容的中文论文复制检测系统研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:harrietgu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数字图书馆的发展和Internet应用的普及,网络数字资源已经成为人们信息获取的重要来源。同时,网上数字学术资源不断丰富,为广大科研工作者提供了便捷的学术交流机会。网络数字学术资源获取的便利及数字资源本身所具有的简单“复制”“粘贴”功能,为论文抄袭、非法使用和扩散等不道德行为提供便利。数字学术论文文本是网络学术资源的重要组成部分,学术论文的文本复制检测技术有待发展。文本复制检测技术是为了防止数字文本的非法复制和扩散而提出的技术,是保护文本知识产权和提高信息检索效率的重要手段。文档复制检测就是判断一篇给定文本是否抄袭、剽窃或者复制于另外一篇或者多篇文档的内容,剽窃不仅仅意味着原封不动地照搬,还包括对原作的移位变换、同义词替换以及改变说法重述等方式。本文首先综述了文本复制检测技术,分析了现有的文本复制检测系统的系统结构、文本表示方式和文本复制检测算法等关键问题;其次,分析了中文论文的格式和内容的特点,提出结构和内容相结合的中文论文文本表示方法,即以树形结构表示文本结构和以VSM表示文本内容的加权树形结构;再次,提出基于加权树形结构的中文论文文本复制检测的系统模型,分析了check系统的不足,改进了树形结构文本表示。根据新的论文的相似度定义,改进了现有的复制检测算法,提出新的完全抄袭的检测方法。最后,通过实验验证了系统的有效性。
其他文献
目前,案例推理(CBR)是一种相似推理方法,其核心在于用过去的实例和经验来解决问题。它能把提交给系统的新案例同系统内先前的案例相比较,根据异同性来进行推演,最后来解释或者帮
中职语文教学应该根据学生特点打造属于自己特点的符合学生实际的紧跟时代潮流的课堂.具体说就是从三方面实施:吸纳为主的知识教学,以赏析为主的阅读教学,以实用为主的写作教
高职院校的课程设置多样,为了提高基本素质和能力,学生需要学习多种多样的基础课程.高等数学是较为基础的课程,但每个学生的理解能力和学习能力不同,教师的教学水平也不同,还
本文根据研究性学习的特点,组织学生对高中英语词汇高效学习进行研究,希望可以对以后的英语教学工作起到一些帮助。
近几年我国经济快速发展,但经管类人才却极为匮乏.我国高校经济管理专业扩招,但人才培养却存在严重的问题,与市场的多元化发展需求存在脱节,未充分重视实践教学的重要性,教学
部队报纸工作有很大进步在中央軍委和林彪元帅正确領导下,特別是一九六○年軍委扩大会議以来,部队的报紙工作有很大进步,取得了显著的成績。这主要表現在:一、端正了方向,加
随着市场经济的发展,物流对经济活动的影响日益明显,越来越受到人们的重视,成为当前“最重要的竞争领域”。本论文针对我国目前物流运作水平低、中小型企业缺乏核心竞争力,缺
如何提高课堂教学效率是当今教学老生常谈的问题,提高教学效率不能单从课堂入手,还要从学生的身心健康、课业负担等方面深入研究,做到快乐教学提高学生的学习兴趣才能真正提高课
一九六四年一月全军政治工作会议以来,军委和林彪元帅对办好《解放军报》作了多次极为重要的指示。摆在我们面前的任务,就是要坚决执行军委和林彪元帅的指示,在总政治部领导
本文介绍数字电路课程的定位,阐述数字电路在我校的开设情况,论述数字电路的课程特点与发展方向,给出课程建设目标.