基于语义结构的学术论文复制检测技术研究与实现

来源 :北京邮电大学 | 被引量 : 5次 | 上传用户:QQ379043463
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网、数字图书馆和数字化分布式媒体的发展,海量信息以各种形态充斥着我们的日常生活。丰富的数字化资源给人们提供便利的同时,也给复制抄袭行为提供了滋生的温床。尤其是近几年来,学术造假、论文剽窃等一系列学术不端事件屡见不鲜。为此,通过设计并实现有效的抄袭检测系统,从技术层面上防止学术抄袭、抵制学术造假具有重要的理论意义和使用价值。基于文本的复制检测技术是保护文本知识产权和提高信息检索效率的最重要手段,而基于语义的论文复制检测识别则是复制检测的核心和重点。在对复制检测技术的基本原理和现有复制检测系统的系统结构与特点进行分析和综合的基础上,研究并提出了一种基于语义的多层次多策略的复制检测算法以提高复制检测的准确率和效率。具体主要研究工作和成果如下:通过分析中文论文抄袭的现实情况,将论文抄袭划分为一稿多投和普通抄袭两种分类结构。并针对这两种抄袭分别采用不同的识别算法,一稿多投使用基于数字指纹的识别方法,普通抄袭使用词频统计的识别方法,提高了检测效率和精度。根据学术论文的特点以及算法设计的考虑,提出了将论文结构化、分层提取特征项综合考虑的思想,将学术论文结构分为否决层、判断层和识别层。在这三个层次中,每一层在识别流程中功能各异,依次递推、层层推理以提高识别精度。在文本预处理过程中,针对中文文本自然语言处理的特点,建立同义词词表知识库,对文本内容进行“重构”,以实现同义词替换,从语义层面检测基于“替换同义词”的抄袭现象。在普通抄袭复制检测识别的实现过程中,采用了多层次多策略的思想,根据识别层中的特征项在论文中的不同位置以及对相似度判断的贡献大小,分别设置不同的权值,从而提高了相似度计算的精确度。此外,考虑到不同研究领域的技术指标有所差异,在阈值的设定策略上也没有单一确定,而是根据不同的论文学科分类动态的设定阈值,利用多策略的方法提高识别算法的适用范围。实验结果表明,本文算法的准确率和召回率都优于现有的复制检测原型系统。
其他文献
非高斯变量广泛存在于各种工程系统中,对于非线性非高斯系统,输出概率密度函数(PDF)控制作为一个分布参数控制问题,长久以来是随机控制界的一个难题。另一方面,在许多实际工业过
2018年11月,C+ Architects受业主委托,为其改造位于方家胡同小院中的云南餐厅.在设计初期,业主与设计方探讨的话题主要围绕云南文化的现代性表达,涉及建筑、空间到整个餐饮系
期刊
以工业预制与装配建造为切入点,通过分析1952~1967年间来自法国、意大利、英国的三位建筑师的三个作品,试图阐明五个相关建筑学体系间的内在逻辑冲突,探讨了这些基本体系间高
通过监视早期发现火灾是保护生命财产安全的重要手段。视频监控系统模拟人类的判断方式,具有判断准确、发现及时的特点,是当今可视化火灾监视领域的一个研究热点。本课题研究
懒坝美术馆是C+ Architects为武隆·懒坝国际大地艺术季设计的主展示场馆.作为整个展览活动中最重要的一个建筑,其本身即是一件大地艺术作品.在远离都市文明的山中,建筑师利
期刊
随着现代旋转机械设备应用的增加,机械设备的关键零部件的维护和检测成为故障诊断的重要组成。滚动轴承作为旋转机械的一个重要部分,使用极为频繁,为易损部件。所以对轴承的
处在社会转型期的中国高等教育,自身经历着前所未有的变化。在上世纪90年代出现的独立学院,其自身就是按新机制、新模式成立的本+科院校,招生批次确定在二类本科与高职高专之间,即人们所称的“三本”。独立学院要想在未来的竞争中胜出,采取什么应对措施以求得生存和发展,成为独立学院必须思考和解决的现实问题。  对独立学院而言,办学条件的优势并不是学校的核心竞争力,影响力和品牌是关键,只有将资源优势转化为质量优
期刊
盐酸纳洛酮(NAL),是内源性阿片样物质阻断剂,除具有对抗吗啡类药物呼吸抑制和催醒的作用外,同时也适用于抢救危急重病例。在院前急救中,我们应用纳洛酮抢救危急重病例如:呼吸心跳
6月来临,很多毕业生即将走上工作岗位。但近年来就业形势不是很乐观,一些学生的工作问题可能在离校时还没有解决,以至于有些学生发出“毕业就等于失业”这样的感慨。  即使还只是大二的学生,也表现出对未来就业前景的担忧。他们说,有些师兄师姐为了生存,不得不去做一些他们平时根本就不屑的工作,从中似乎也看到了自己的影子。如果大学生去从事那些本来不需要经受高等教育就能干好的职业,那不是说上大学没有用了吗?既然这
三维形貌测量作为工业应用中一种常见的自动光学检测方法,具有非常大的应用范围,因此有许多对于这方面的研究。在过去的研究中,重点在于三位形貌恢复的算法实现,包括一系列的