【摘 要】
:
文本匹配作为自然语言处理中的一项基本任务,广泛应用于信息检索、文本挖掘等领域。在实际应用中,文本匹配任务仍面临诸多挑战。现有主流的文本匹配模型通常存在一词多义、语义信息捕获不准确等问题,导致句子的上下文信息和隐含的语义信息不能被有效提取,造成准确率较低。为了解决以上问题,本文提出交叉知识增强的文本语义匹配模型,该模型基于全局-局部交叉知识增强和细粒度交叉知识增强的语义匹配方法实现。本文的主要研究工
论文部分内容阅读
文本匹配作为自然语言处理中的一项基本任务,广泛应用于信息检索、文本挖掘等领域。在实际应用中,文本匹配任务仍面临诸多挑战。现有主流的文本匹配模型通常存在一词多义、语义信息捕获不准确等问题,导致句子的上下文信息和隐含的语义信息不能被有效提取,造成准确率较低。为了解决以上问题,本文提出交叉知识增强的文本语义匹配模型,该模型基于全局-局部交叉知识增强和细粒度交叉知识增强的语义匹配方法实现。本文的主要研究工作包括以下三个方面:(1)针对文本中存在的一词多义问题,本文提出全局-局部交叉知识增强的语义匹配方法。该方法首先从词粒度对文本进行嵌入,同时引入How Net外部知识库,利用知识库中蕴含的语义知识丰富词语的语义信息;其次,通过门控循环单元和双向门控循环单元从词粒度对句子进行编码,捕获词语在文本中隐藏的语义信息;再次,结合多头注意力机制和卷积神经网络,从全局和局部两个方面,进行句间词语交互,更深层次捕获文本中隐藏的语义信息;最后,使用池化提取句子的全局信息和关键信息,从而预测句子对的语义相似性。实验证明,本文提出的全局-局部交叉知识增强的语义匹配方法与传统的文本匹配方法相比有更好的表现,解决了一词多义的问题,丰富了词语的语义信息,证明了该方法的有效性。(2)针对文本匹配中存在语义信息捕获不准确的问题,本文提出细粒度交叉知识增强的语义匹配方法。该方法首先对词向量进行改进,利用细粒度的字向量和引入位置信息的词向量捕捉句子深层次的语义信息,结合How Net外部知识库进行介绍;其次,通过双向门控循环单元、双向长短期记忆网络和自注意力机制从字粒度和词粒度对句子进行编码,捕获文本在字和词中隐藏的语义信息;再次,使用多头注意力机制和卷积神经网络,进行句内、句间交互,提取不同语义空间内字和词的依赖关系;最后,采用平均池化和最大池化提取文本的全局特征和关键特征,得到句子的特征表示,预测两个句子是否相似。实验表明,本文提出的细粒度交叉知识增强的语义匹配方法捕获了文本细粒度的语义特征,有效提升了文本语义匹配的准确度。(3)为了验证交叉知识增强的文本语义匹配模型的有效性,本文将该模型应用于智慧在线教育平台的智能阅卷中,并对智能阅卷过程进行建模,实现了主观题智能阅卷功能,证明了交叉知识增强的文本语义匹配模型解决实际问题的有效性。
其他文献
在各种信息迅速传播的今天,图像作为一种常见的信息载体,凸显出了越来越重要的地位。图像质量的好坏直接决定了获取有用信息的多少,但是由于图像获取的环境和成像设备的限制,造成了图像的各种模糊和畸变问题。由于图像获取的环境是不可控因素,想要改变拍摄时图像的环境困难较大,较好的成像设备费用也比较高昂,而使用软件处理的超分辨率技术成本低廉,得到的效果较好,因此图像超分辨率重建技术得到了广泛的应用。决定超分辨率
随着现代工业向智能化方向的不断发展,工业设备对计算资源的需求变得更加紧迫。传统云计算因其架构原因无法满足工业场景对实时计算资源和数据安全保护的需求。作为继云计算之后的新型计算范式,边缘计算将服务器放置在靠近终端设备的网络边缘侧,能够通过计算任务卸载为工业设备提供低延迟和安全性强的计算服务。计算任务卸载策略会对工业计算任务的执行效果产生巨大影响,不合理的任务卸载无法提升工业互联网边缘计算的性能。与此
智能反射表面(Intelligent Reflective Surface,IRS)是未来第六代无线通信技术的新兴范式,其可改变无线通信传输环境的特性近两年得到广泛关注。IRS可有效提升空间调制系统的数据传输速率,而在数据交互量轰炸式增长的信息时代,人们也越来越关注通信安全,IRS使能物理层安全在节省能源消耗的同时能够辅助提高传输安全。本文研究IRS在单输入单输出(Single-Input Sin
近年来,随着监控视频技术的普及和发展,运动目标检测技术被广泛应用于工业生产、安防监控和交通管理等领域。然而,实际监控场景的多变性和复杂性给运动目标检测算法带来了诸多困难和挑战,如动态背景、相机抖动和阴影等因素会影响算法的准确性和鲁棒性。因此,研究如何设计实时性好、鲁棒性强的运动目标检测算法成为当前技术研究的重点。基于深度学习的实例分割方法展现出强大的鲁棒性,能够精确地对每个目标的轮廓进行分割,因此
极化合成孔径雷达(Polarimetric Synthetic Aperture Radar,Pol SAR)是一种强大的微波成像技术,可以提供全天候的地球表面的目标信息。与其他遥感影像相比,极化SAR图像能够以四种极化组合(HH、HV、VH和VV)发射和接收电磁波,从而提供更丰富的信息。由于这些特点,极化SAR技术在图像解译方面具有很高的实际应用价值,如图像分类、目标识别和检测任务,其中,极化S
基于深度神经网络(Deep Neural Network,DNN)实现的自动驾驶系统图像识别模型中,主要通过部署摄像头和激光雷达等设备收集驾驶场景信息。但现实驾驶场景广泛且复杂,手动收集训练样本时很可能会忽略大部分极端情况下的图像样本,这会导致模型无法学习到极端驾驶环境下的决策信息,从而导致严重的交通事故。除此之外,已有研究表明DNN很容易受到对抗样本的攻击,恶意攻击者通过对输入样本添加人眼无法识
全基因组关联研究(Genome-wide association study,GWAS)是研究人类复杂疾病致病原因最重要的方向之一。目前,通过GWAS对单个单核苷酸多态性(Single nucleotide polymorphism,SNP)位点与疾病的关联性分析目前已取得了显著的成果。由于复杂疾病的致病因子复杂多样,单个SNP位点的关联性分析对复杂疾病致病机制的解释效果十分有限,而多个SNP之间
会话情感识别作为情感识别任务的一个重要组成部分,在自然语言处理、文本挖掘等领域得到持续关注。会话情感识别任务旨在捕捉用户在会话中的情感动态,其在对话系统、舆情挖掘、法律审判、采访、电子医疗服务等方面具有重要的应用前景。随着社交媒体的普及,越来越多的用户选择在网络上表达自己的观点,而用户在表达观点的过程中经常依靠一些常识知识,同时会话中也经常存在让谈话者产生某种情绪的原因。由于现有的模型缺乏常识认知
随着物联网设备数量的快速增长,物联网设备固件的安全性问题愈发不容忽视。同时,由于软件需求的不断迭代,为了能够尽快完成开发任务,软件开发者常常从其他项目中查找功能相关的代码,并移植到自己的项目中。然而,这些被复用的代码或组件可能包含潜在的缺陷甚至漏洞。由于物联网设备的源码不开放、修复成本较高等特殊性,物联网设备固件面临更加突出的安全问题。为了解决该问题,一种主流的思路是将包含缺陷或漏洞的代码视作查询