面向抄袭检测的检索模型研究与实现

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:sulianlwp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的发展使抄袭现象越来越严重,抄袭检测也成为学术界研究的重点。人们可以通过各种途径去获取抄袭资源,更严重的现象是“知识产权剽窃”也随之而生,抄袭这种社会现象具有广泛的危害性,抄袭检测研究可以精确的识别各类抄袭文档,并且有效的减少抄袭现象。现有抄袭检测研究主要包括三方面的内容:抄袭语料的获取、抄袭源检索和抄袭检测文本对齐。本文基于这三方面的研究,开展了如下创新性工作。现有抄袭语料主要采取的是人工获取抄袭语料方法。针对这种方法存在的质量和时间效率的问题,本文提出基于文本对齐算法的抄袭检测语料获取方法,自动获取抄袭语料,为抄袭检测的研究提供基础数据。本文给出基于文本对齐算法的抄袭检测语料获取方法的框架和文本对齐算法,并对本文所获取的语料给出语料信息统计及评价。现有基于启发式的源检索方法存在不足,例如:缺乏理论支持,仅仅依赖于专家经验等不足之处。为此本文提出基于监督学习的源检索过滤模型,给出源检索过滤框架和算法,探讨了排序学习方法和基于分类方法在源检索过滤中的性能,详细对比了各类源检索的特征对源检索性能的影响。在过滤模型构建过程中,本文成功的选择出具有最好检索性能的特征和监督学习算法。基于词匹配的抄袭检测文本对齐方法在照搬照抄、低模糊抄袭的检测上已获得了较高的性能,但是在面对实施了各种高模糊抄袭手段的抄袭时则表现出较差检索性能。为此本文提出了基于语义的文本对齐方法,将语义信息引入到抄袭检测中,分析了词的分散式表达,给出了基于语义的文本对齐模型。通过实验证明,本文构建过滤模型和种子搜索模型的研究方式弥补了当前研究中的不足,提升了抄袭检测的整体性能,为源检索过滤任务以及文本对齐种子搜索任务的研究提供了新的方法和研究方向。
其他文献
为有效提高复杂航空项目资源利用率、节约项目成本,提出了一种求解大规模网络计划资源均衡优化问题的蚁群一模拟退火算法。该方法中,首先采用预处理方法对航空项目分级网络计划
企业的类型按照占用资源的集约程度不同,分为劳动密集型、资金密集型、技术密集型和知识密集型。资金密集型企业是指单位产品所需要的投资较多、技术装备程度高、用人少的企
随着国内医药企业以及配套的医药物流迅速发展,整个医药行业日益注重供应链管理。库存管理作为供应链管理中的一个重要环节,对医药企业健康稳定的发展起到至关重要的作用。药
大降坪黄铁矿区铅锌银多金属矿体赋存于震旦系大绀山组b段(Zdb)。本文综合研究了该矿体的地质特征,并指出黄铁矿底板的黑色岩系是矿区铅、锌、银、锡等金属的矿源层和矿体赋矿
为了提高航空相机的照相分辨率,必须对航空相机拍照时飞行方向上景物与感光介质之间存在相对运动产生的前向像移进行补偿,以使景物与感光介质在拍照过程中相对静止。分析了TDI-
社会的进步与科技的发展,全面提高了人们的生活水平。全球的经济一体化,使各个行业的企业都处于空前激烈的市场竞争中,企业若要在这样的背景下获得稳定的发展,就要提升自身的
随着住宅工业化进程的不断推进,人们对住宅经济实用性的要求也越来越高。本文通过对建筑结构设计优化方法在房屋结构设计中的应用现状进行分析和研究,了解建筑结构设计优化方
针对三维方形板材切割问题,提出一种有效的三维切割问题的聚合启发式混合算法(AG_HA)。该算法基于三维装箱的基本块,利用评估规则对可聚合基本块进行局部聚合,然后运用启发式
<正>1.牢士捷斯文斯基的“对混凝土结构和砖石结构的破损处进行灌浆充填用的水泥浆”一文,见1956年第三期苏朕“建筑新技术与先进经验”杂志.2.克牢托夫斯基的“对在使用中的
1.在提高就业上精准发力。企业创新,人是第一要素,是动力源泉。一是支持职业技术人才的培养。加强职业技术教育和技工院校示范校建设,构建具有中国特色的现代职业教育和现代