融合译文和双语特征的跨语言抄袭检测方法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:yinlangui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
抄袭是指使用其他作者的内容、思想或观念等作为自己的原创作品,而不做任何引用或参考标志的现象。当今是一个全球化的信息世界,互联网已经成为主要信息访问媒介。无论是用户的母语或非母语信息,几乎都可以在互联网上得到,这便使得抄袭现象日益加剧。抄袭几乎可以在每一个领域中找到,但它是在学术方面的问题更为严重。目前,有许多可用的商业性和非商业性抄袭检测软件。然而,大部分抄袭检测系统只针对于单一语言抄袭的现象,只能检测出完全复制或简单修改行为的抄袭文本,对于隐蔽性较大跨语言的抄袭案件,则很少有学者进行研究。根据研究任务的不同,Pan@CLEF2012将抄袭检测可以分为源检索和文本对齐个子任务。而文本对齐任务又可以分为种子搜索和文本合并两个子阶段。本文以跨语言抄袭检测为研究对象,针对跨语言抄袭检测中的源检索与文本对齐任务展开研究,具体研究内容包括:首先,针对源检索阶段,尚无有效的关键词提取方法的问题,本文结合文本的特点,实现了一种基于小片段的关键词提取方法。第二,本文针对跨语言抄袭检测的种子搜索阶段,仅采用译文文本的特征,未能全面的考虑文本的译文和双语特征这一问题,本文提出了一种将译文和双语特征相融合的种子搜索算法。最后,针对Pan@CLEF2012第一名的抄袭检测方法的片段合并阶段,在时间效率上尚有提高的空间。本文提出了一种基于动态规划思想的合并算法,在合并过程中采用动态规划的思想,通过减少文本合并时的重复计算时间,来优化合并算法。实验证明,本文提出的基于小片段的关键词提取方法,用于跨语言抄袭检测的数据,使得跨语言源检索任务上的性能得以提升;本文提出的融合译文和双语特征的种子搜索方法,使得跨语言抄袭检测的整体评测指标得以明显提升;另外,本文提出的基于动态规划的合并算法,在时间性能上不仅对合并阶段的时间进行了优化,还对整个跨语言抄袭检测系统的时间进行了优化。本文的研究成果不仅为跨语言抄袭检测提供新的解决策略、具体方法和支撑技术,提升文本抄袭检测的质量,弥补了跨语言抄袭检测系统的不足,提高了跨语言抄袭检测的检索速度、召回率和精确率,同时,还为众多以文本相似度计算为研究内容的问题,提供了新的解决思路和重要参考。
其他文献
近年来,不确定数据存在于很多重要的应用领域,如数据挖掘、传感器网络、环境监测、市场分析、以及数量经济学研究等。在这些应用当中,由于测量设备的限制、数据更新的延迟等
随着互联网技术的发展,人们在互联网上进行沟通、交流已经成为主流,网络成为人们生活中的一部分。但是网络为人们提供服务的同时,其规模也在爆炸式的发展。网络中存在丰富的
随着越来越多的企业选择Web服务技术对外提供业务功能,如何集成这些已有的服务使之成为一个完整的业务流程正逐渐成为国内外研究的一个热门领域。 现有将Web服务技术应用在
基本养老保险制度的健康安全运行是我国社会保障事业平稳持续发展的重要前提,也是促进国家安定、社会和睦和人民幸福的关键所在。因此,运用科学有效的评估技术对国家现行养老体制的实际执行状况进行客观、切合实际的评判,已经显得极为重要和紧迫,并且对于进一步优化和完善我们国家的社会保障机制有着极其重要的现实意义。本文首先通过文献研究法,重点探究了养老保险领域评价指标体系的研究现状,并综合专家经验选取出了 14项
微博作为近些年新兴的社交网站,对整个互联网产生了巨大影响,微博服务极大的拉近了人与人之间的距离,让人们拥有了新的合作与交流方式。对于微博网络中的用户,每一个用户都是
人工神经网络走过了半个多世纪的曲折历程,吸引了许多科学家在这个领域研究,成为现代脑神经科学,数理科学以及信息科学等综合研究领域的共同的科学前沿之一。二进前向网络是
本文全面分析了流媒体系统中的OoS问题的影响和制约因素,基于流媒体代理缓存的优点,在参考已有的流媒体代理缓存理论和传统的流媒体技术中基于流媒体服务器端.客户端(即C/S模式)
随着CAD教学成为工程图形教学内容的重要组成部分,以及远程教育的需求,计算机考试已经越来越成为工程图形考试的一种重要考试形式,与此相伴的,计算机的自动阅卷就是亟待解决的问
消息中间件在企业信息系统间数据交换和共享过程中起关键性作用,不同系统所实现的功能不同,消息的表现形式也就存在较多的差异,如可以把文本、声音、图象、MP3或其它形式的数
随着互联网的飞速发展,电子商务应运而生,它不仅提高了人们的生活效率、节省了大量费用,而且提高了社会的生产能力。协商是电子商务进行在线交易的重要方法,也是智能Agent设