基于BiLSTM的抄袭检测算法及在查重系统中的应用

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:zyh_0527
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅速发展,网络教学模式开始兴起,越来越多的高校已经开始逐渐从传统的教学模式向线上教学转变,许多高校都陆续推出了自己的网上教学系统。而线上教学模式在给教学工作带来便利的同时也成为了抄袭行为滋生的温床,由于电子形式的信息具有易复制易传播的特点,使得本就屡见不鲜的抄袭现象进一步加重。而人工判别的方式工作量极大,因此使用计算机进行抄袭检测就显得尤为必要。本文在研究了传统的抄袭检测技术以及近年来一些优秀的算法的基础上,提出了一种基于BiLSTM神经网络的抄袭检测技术。针对于传统抄袭检测技术的不足,本文做出了以下的主要改进:其一,在词粒度的特征提取阶段,采用了预训练的词嵌入模型,得到了具有语义信息的词向量表示,解决了语义鸿沟的问题;其二,在匹配模型中引入了BiLSTM神经网络,用以解决传统方法无法获取文本的语序信息的缺点;其三,在得到文本的特征向量后利用多层感知机使两段文本的特征进行交互,得到具有交互信息的文本匹配向量。本文利用相关数据集对模型进行了训练,并与一些比较常用的方法进行实验对比,表明本文提出的方法在准确率与F1值上有所提升。最后基于实验中心的教学系统开发了抄袭检测模块,利用本文的模型对学校教学系统中部分学生作业的数据对进行了检测,验证了本文提出的方法的有效性。最后完成了查重系统的设计与研发工作,将本文的算法应用到了生产实践当中,解决了实际教学活动中的问题。
其他文献
随着科学技术的进步以及经济水平的提高,监控摄像机已经深入到社会各个角落,对社会稳定做出了巨大贡献。然而,数以万计的监控摄像机每天会产生不计其数的视频图像数据,并且监控视频中包含异常行为的片段或许不到万分之一,单靠人工的观察识别会浪费大量的时间,也容易遗漏重要的信息。如果计算机能自动识别出视频中每个人的行为,并对异常行为发出警报,将会节省大量的人力物力。因此,视频中的异常行为识别技术具有重要的研究意
现代安全防护领域多采用基于云计算的人工视频监控方法,在监测低概率出现的异常目标时,监控系统易出现由于视频信息冗余导致网络资源浪费、数据传输存在延迟以及人为失误导致检测质量下降等问题。边缘计算通过在网络边缘端对前端采集数据进行实时分析运算,可以有效减轻云端负载压力,提高系统响应实时性。同时随着深度学习技术尤其是目标检测算法迅猛发展,使得视频监控更加高效智能,有效缓解人工视频监控方法存在的缺陷。因此,
随着移动互联网的飞速发展,定位技术的进步,下一个位置预测已经成为了一项重要研究任务,这对于用户和商家具有重要意义。然而由于用户签到数据的稀疏性、相关特征的复杂关联,下一个位置预测存在巨大挑战。首先,现有下一个位置预测算法缺乏针对某一位置的具体行为模式分析,导致无法充分建模用户的历史行为模式及短距离出行模式。其次,现有模型使用的地理空间特征通常不包含公共交通特征,导致无法有效建模用户长距离出行模式。
幸福是指人类主观上产生的愉悦情绪。它是情感中的积极部分,影响着人们的生活质量。因此,理解人类幸福感是一项有意义的工作。本文主要讨论幸福感的两个方面(Agency/Sociality)。为了拓宽人们对幸福感的感知情况,本文在英文数据集Happy DB和中文数据集Weibo DB上分别对幸福感展开研究。为了分析幸福感的Agency和Sociality方面,在Happy DB数据集上,本文提出了一种基于
小样本图像分类是指从几个简单的例子中学习视觉概念。人类能通过视觉中心充分利用几个样本的特征信息,也能在学习过程中学会学习。本文以元学习为基础,从特征提取和学会学习两个方面提高小样本分类的准确率。为了在小样本图像分类过程中能充分利用图像通道和空间特征的位置信息,本文提出特征交叉注意力方法,该方法首先沿着通道和空间维度全局池化生成特征信息,然后通道和空间特征分别与原有特征交叉使得具有相似特征的位置互相
车辆重识别是指给定具体车辆在特定区域内的一张图像,根据车辆外观信息和部分辅助信息,检索出在不同摄像头下捕捉的同一车辆。车辆重识别技术是智慧交通建设的核心技术之一,对交通监管、道路安全、刑侦破案以及智能交通系统建设意义重大。随着深度学习的快速发展,车辆重识别技术近年来取得了重大进展,但车辆重识别仍面临如何解决类间相似度高和类内差异性大的挑战。深度网络推理加速是指利用有效的网络压缩方法对目前密集的深度
如今无人机已经在各个领域发挥着不可替代的作用,而目标跟踪任务对于无人机来说又是一项极为重要的功能,例如民用无人机的移动跟拍功能、消防无人机用来跟踪山火的走势功能等等。所以能够研发出有效的适用于无人机应用场景的目标跟踪算法显得尤为重要。以往的单目标跟踪算法大致分为两类,一类是传统方法,例如基于相关滤波的单目标跟踪算法;另一类是深度学习的方法,例如基于孪生神经网络的单目标跟踪算法、基于可见光和红外的融
在自然语言处理领域中,嵌入技术是一种将文本表示为计算机易于处理的形式的技术。但是,大多数的嵌入模型,无论是词级别,还是句级或者文档级的模型,其关注范围仅限一个文档之内,最多关注到上下句或者不同段落之间的关系,并没有利用文档间的相关性信息,这限制了模型对于文档级别文本的表示能力。最近出现了一种利用引用信息这种文档间信息进行嵌入的模型,该模型为了利用文档间的相关信息,并不直接将这些相关信息随着文档一同
目的探讨重组人源胶原蛋白局部应用对绝经后阴道壁组织病理学的影响。方法选取绝经后盆腔脏器脱垂需行手术治疗的患者50例,随机分为对照组25例和实验组25例。对照组术前不使用激素类药物和非激素类润滑剂或保湿剂;实验组于术前阴道内给予重组人源胶原蛋白均匀涂抹,隔天1次,每次2 g,术前至少使用10次。术中留取阴道前壁组织标本。用HE染色法观察阴道壁上皮厚度,Masson染色法观察阴道壁肌肉和胶原纤维的分布
随着通信技术的发展,各种数据爆炸式增长。新闻、报刊等非结构化的长文本中含有大量有价值的信息,如何自动地抽取出这些信息成为了一个亟待解决的问题。文档级别关系抽取作为信息抽取的关键任务之一,旨在抽取长文本中众多实体之间的句内和跨句关系。本文针对文档级别关系抽取任务进行了以下研究:(1)基于上下文语义的文档级别关系抽取探究文档级别上下文语义抽取方法,及其对文档级别关系抽取性能的影响。首先,以实体为节点,