英语作文抄袭检测模型及其实现

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:fuyuanluyi13
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着我国综合国力的不断提升,英语在我们的生活里扮演了越来越重要的角色,而写作能力是英语能力的一项重要指标。互联网的蓬勃发展,使得信息的传播成本接近于零,人们可以随意的发送或者接受信息。然而,互联网野蛮生长的背后,使得抄袭成为一件越来越唾手可得的事情,可以随意的将他人的作品占为己有,抄袭就这样产生了。抄袭的普遍性与其带来的社会危害性,使得对抄袭检测的研究变得越来越迫切。一般来说,我们将抄袭检测领域的研究分为两个方向:复制抄袭检测和语义抄袭检测。到目前为止,已经取得了阶段性的进展。早些年研究者的主要目光集中在复制抄袭检测研究上面。而近些年,研究者把更多的注意力投向了语义抄袭检测研究领域。本文针对这两种检测类型,在对抄袭检测领域进行深入的研究后,提出了自己的抄袭检测模型。本文的研究内容概括如下:1、针对复制抄袭检测问题,采用N-Gram滑动窗口对作文进行切分,对每个NGram计算哈希值,通过对比哈希值进行相似度计算。实验表明,本方法提取的特征能够有效地进行复制抄袭检测,能够有效减少计算量,降低整个模型的时间复杂度。2、针对语义抄袭检测问题,提出了一种基于BERT(Bidirectional Encoder Representations from Transformers)的抄袭检测模型。该模型使用BERT预训练模型对句子进行特征向量表示。通过对比BERT+全连接、BERT+Text CNN、BERT+BiLSTM、BERT+BiLSTM+Attention在MRPC数据集上的表现,实验结果显示BERT+BiLSTM在MRPC数据集上的各项指标最好,相比基线模型BERT+全连接,准确率提高了2.3%,Auc提高了3.3%,精确率提高了2%,召回率提高了0.7%,F1值提高了1.6%,所以最终选择BERT+BiLSTM作为本文模型的主要结构。相比其他深度学习模型,本文模型在MRPC数据集上取得了显著高于DSSM、CDSSM、ARC-II、Match Pyramid、Match-SRNN、MV-LSTM、PTDDMM-ISS-L、u RAE、Multi Gran CNN等方法的性能。3、基于上述方法,本文构建了英语作文抄袭检测模型,经过实验结果表明,本文模型对英语作文抄袭检测的有效性,表明本文模型具有较高的准确率和较低的时间复杂度。
其他文献
随着移动电信技术和智能终端的飞速发展,大量计算密集型、时延敏感型的新型应用不断涌现,如智能交通、虚拟现实、车联网、物联网等,为满足移动终端的低时延响应需求,一种整合网络边缘中异构资源的分布式计算范式被提出,即多接入边缘计算(Multi-access Edge Computing,MEC),又称移动边缘计算。但由于MEC的计算资源有限,且用户终端的任务类型复杂多样,不同任务类型的处理难度差距较大。因
阿尔茨海默症(Alzheimer’s Disease,AD)是一种神经退行性脑部疾病,临床上表现为记忆障碍、行动以及语言能力丧失等。AD根据临床症状表现可分为轻度认知障碍(Mild Cognitive Impairment,MCI)、正常情况(Normal Control,NC)和AD。MCI是AD和NC的一种中间状态,是AD的前驱阶段,且MCI的临床症状不明显,在病情的初期不易被察觉,一般情况下
图像描述是一项融合计算机视觉与自然语言处理的技术,能够实现从图像信息到文字信息的转换。图像描述在人机交互、视觉辅助和智能机器人等诸多场景中具有重要的应用价值。目前大多数是针对英文语句的图像描述研究,中文语句与英文语句在语法、分词、表达等方面有所不同,中文描述语句的准确度和细致度等仍有待提高。本文采用深度学习方法对图像中文描述模型进行研究,主要工作如下:第一,提出了基于多尺度密集连接网络的图像中文描
图节点分类在社交网络、电子商务和疾病预测等领域有着广泛的应用。图结构的复杂性给现有分类算法的应用带来了挑战,因此探索高效的分类算法具有重要的现实意义。本文主要基于图卷积神经网络和超图神经网络对节点的半监督分类方法进行研究。在图卷积神经网络的节点分类方法中,初始的图结构往往存在噪声,直接将其送入网络模型中训练,模型的分类准确率会受到影响。因此本文首先在已有的图神经网络架构上改进,设计一种融合图结构和
智能合约作为以太坊区块链的可编程模块继承了区块链的技术特征——数据的存储和计算方式拥有不可更改的特性。它适用于存在互不信任的应用场景。现有的区块链应用研究一般分为两点:(1)针对区块链去中心化和防篡改的特性将其应用在新的应用场景中。(2)针对区块链技术的限制,扩展区块链的功能。本文主要基于以太坊智能合约技术,做出了以下两点研究。(1)针对在互联网环境下社区代币有中心化、不公开、平台掌控者可以任意修
差分故障攻击作为一种经典的侧信道攻击,其攻击原理主要是依赖于在加密设备执行期间恶意注入故障,然后通过分析故障输出和非故障输出之间的差异来推出相关的密钥信息。具有故障注入灵活、分析效率高、攻击复杂度低等优点,对加密算法的工程应用构成了严重威胁。因此,差分故障攻击以及如何抵御差分故障攻击是目前学术界的研究热点之一。本文主要基于故障注入、感染计算以及故障检测等基础思想,对轻量级密码算法ANU和Pyjam
全球卫星导航系统的导航与位置服务给人们带来了前所未有的良好体验,但是由于导航信号传达地面需要经历漫长的过程,其次导航信号的公开性以及其缺乏防护措施让导航信号变的十分脆弱,极易被恶意用户欺骗干扰,而这类干扰不同于容易被检测出来的压制式干扰,不仅隐蔽性极高,而且危害性极大,难以被一般的仪器和算法检测出来。针对上述问题提出了一种基于BP神经网络的有监督的机器学习对欺骗导航信号和真实导航信号进行二分类的欺
单光子探测技术在需要高灵敏度的弱光传感应用,例如3D激光雷达成像技术,量子密钥分发,光感测距技术和医用成像技术等领域拥有广泛的应用前景。在这些应用中最基础核心的器件则是单光子雪崩探测器(Single Photon Avalanche Detector,SPAD),由于在进行单光子探测时可获得的光信号非常微弱,所以要实现检测微弱的光子信号就必须有相应的信号放大处理并同时保持极低的噪声。单光子雪崩二极
地面作业相比以前已经有很多的岗位被机器人替代,未来的空中作业也可能如同地面作业一样逐渐的被空中机器人替代。带有机械臂的四旋翼无人机在未来的空中作业会扮演一个非常重要的角色,可以进行空中抓取、空中维修等作业。由于四旋翼无人机是无固定支撑点的机器人,机械臂的空中作业会对四旋翼无人机带来很大的干扰,影响四旋翼无人机的飞行稳定性、可靠性,进而影响到了机械臂的空中作业。所以,提高四旋翼无人机的抗干扰能力就有
由于社会数字化进程的推进,促进了工业互联网技术和5G技术的蓬勃发展,导致数字信息的传输量和共享量急剧增长,数字图像在传输过程中受到一些组织或个人的攻击,可能会造成灾难性的后果。因此,保护图像信息安全传输是一项重要的工作。混沌映射被广泛应用于图像加密,它具有的初值极端敏感性和伪随机性等特性与加密思想要求一致。然而,现有的混沌加密算法也存在混沌特性不足、易于攻破等问题,为了有效提升图像加密性能,本文从