【摘 要】
:
语义相似度计算一直以来都是自然语言处理领域研究中的热点与难点问题,其在搜索引擎、智能客服、翻译软件等诸多计算机应用中都作为主要的算法支撑。深度学习算法的发展逐步取代了传统的语义相似度计算,深度学习中的孪生神经网络框架因天然的结构优势使其在语义相似度的计算问题上具有较好的性能。但由于其对两个文本的特征提取是相互独立的,无法获取两个文本之间的交互特征,难以学习到句子间的逻辑关系。为了改善上述问题,本文
论文部分内容阅读
语义相似度计算一直以来都是自然语言处理领域研究中的热点与难点问题,其在搜索引擎、智能客服、翻译软件等诸多计算机应用中都作为主要的算法支撑。深度学习算法的发展逐步取代了传统的语义相似度计算,深度学习中的孪生神经网络框架因天然的结构优势使其在语义相似度的计算问题上具有较好的性能。但由于其对两个文本的特征提取是相互独立的,无法获取两个文本之间的交互特征,难以学习到句子间的逻辑关系。为了改善上述问题,本文在孪生神经网络的基础上提出两种改进模型以充分发挥孪生神经网络结构的优势,提升语义相似度计算的准确性。(1)第一种改进模型是基于孪生ELECTRA网络的语义相似度交互模型。首先利用ELECTRA模型构造孪生神经网络的编码层,不仅能够提高模型的计算效率还能够使模型获取到两个文本更深层次的语义信息和文本间的距离信息。为了使模型提取到两文本的交互特征,该模型还结合了BERT的下文预测任务建立交互模块,利用获取到的交互特征与文本距离特征共同度量语义相似度。(2)第二种改进模型是基于孪生Uni LM网络的语义相似度模型。Uni LM的网络层具有的多种编码方式,利用该特点将其作为孪生神经网络框架的编码层可以充分获取到句子的语义信息和句子对之间的上下文关系。本文基于提出的两种改进模型,利用对等关系型和问答关系型两种文本数据集分别对模型进行实验,实验结果表明基于孪生ELECTRA网络的语义相似度交互模型的准确率相较于目前比较先进的BERT模型在两类数据集上均有所提升,且其在对等关系型任务上的表现优于问答关系型任务。基于孪生Uni LM网络的语义相似度模型的性能在对等关系型任务上的表现与BERT模型相当,在问答关系型任务上比BERT模型的准确性提升了3.31%,比基于孪生ELECTRA网络的语义相似度交互模型的准确性提升了2.58%。
其他文献
随着自然语言处理技术在中文不同领域中的应用,以及深度学习相关算法的研究发展,利用自然语言处理技术实现对古文的处理与挖掘越发受到关注。古文自动断句标点处理是古文数字化处理的重要环节。面对浩如烟海的古文典籍,实现准确快速地自动化断句与标点,有利于古文语料处理的相关工作的进一步挖掘和研究。本文以纪传体史书文本为古文研究对象,针对Bi-LSTM-CRF基线模型局限于字符粒度处理不适用于纪传体史书文本的问题
本文通过参考抗寒苹果的研究相关文献,重点分析了国内32个苹果品种或砧木的特征和特性,以期为寒地苹果生产提供支持。
由于无人机和卫星图像视点的剧烈变化,导致视觉外观差异巨大,现有跨视角图像匹配方法性能难以提升,致使无人机视觉定位研究依然面临挑战。本论文在研究大量国内外跨视角图像匹配算法的基础上,分析已有模型不足,从像素级、特征级、决策级三个层面出发进行了改进,主要研究工作如下:(1)针对无人机-卫星视图间空间域差过大与空间布局信息的忽略问题,从像素级层面出发,结合手工特征和深度特征,提出了一种基于视角转换的前置
计算阶段、认知阶段和感知阶段是人工智能通常分为的三个阶段。计算阶段通常表现为计算机进行正常的数据运算和存储。人工智能在认知阶段的表现为计算机能够接收来自外界的信号,在这个阶段主要的研究方向有文字识别、图像识别和语音识别等。感知阶段使现阶段研究重点,该阶段不仅包含了前面两个阶段的能力,还在此基础上能够进行数据的理解、数据的判断、新数据的生成、数据的实际运用等。其中最为核心的部分就是计算机的理解能力。
随着互联网新闻越来越多,想要短时高效地在众多文本中找到自己想要的内容,获取需要的信息变得越来越困难,因此文本摘要变得必不可少。抽取式摘要已经取得不错的效果,但抽取的摘要不连贯、可读性差;生成式摘要虽然能生成较为通顺的语句,但极容易偏离主题,生成错误的摘要以及重复的语句。本文将两种摘要模式结合起来,提出混合式的生成方式,另外针对现文本生成摘要中生成摘要不准确、生成词汇较死板以及文本摘要评价不准确等问
近年来,依托中国经济社会的高速发展,中国信贷市场发展迅猛,信贷产品的风控管理也随之变得越来越重要。但当前业界信贷模型多聚焦历史还贷数据,对匿名特征数据与征信数据的利用较为欠缺,且部分模型结构单一、泛化能力不强。本文为了解决上述问题,扩展传统信贷模型思路,利用增强学习与混合学习的思想,面向中小规模的匿名特征金融征信数据展开研究,设计并实现一种新的金融征信风控模型。本文首先针对具有海量匿名特征的中小规
随着生成对抗网络的发展,研究人员逐渐开始关注如何对一些真实的人体属性进行编辑,并达到肉眼无法鉴别真假的程度。目前,对于人体属性的编辑的研究主要分为两个方向:其一为人体的面部编辑,该研究成果可以应用于短视频的特效处理等工程应用中;其二为人体动作迁移,这项研究可以实现在只有一张人物照片的情况下,完成该人物的各种动作变换。本文针对这两个研究方向,分别提出了两种不同的新思路。针对人体面部编辑,本文提出了一
相较于依靠声传感器获取语音信号的传统语音侦听系统,激光侦听系统可通过测量声源附近物体的声致振动信号,在远距离、非接触条件下获取目标语音信号,因此被广泛应用于安防监控、公共安全、军事等领域。在常见的激光测振技术中,散斑图像测量技术相较于光反射调制测量技术和激光干涉测量技术而言,对光路和硬件设备的要求相对较低,实现难度较小,因此在激光侦听领域具有广阔的应用前景。本课题在使用散斑图像测量技术的激光侦听系
在种类繁多的自然语言处理任务当中,构建人性化的对话系统是非常具有难度的,而开放领域对话系统更是研究中的重中之重。如何让一个开放领域对话系统具备生成多种多样的回复的能力,以及如何让对话系统在对话过程中保持角色一致都一直是研究过程中需要解决的重难点问题。本文针对上述提到的两方面问题提出了下列具有针对性的改进方案:(1)针对开放领域对话系统的回复多样性问题,本文中提出了一个基于潜在空间条件对抗学习的两阶
以常规低位嫁接为对照,研究富平楸子高位嫁接对植株抗旱性的影响,为生产中该砧木资源的应用提供参考。以一年生富平楸子组培盆栽苗为砧木,分别在距地面10cm和60cm处嫁接‘秦脆’,采用土壤含水量75%~80%为对照,土壤含水量45%~55%为处理,进行为期60 d的中度干旱胁迫处理,测定相关指标,比较两种嫁接高度下植株的抗旱性强弱。结果表明:长期干旱胁迫后,与对照相比,2种类型苗木的各指标均显著降低,