基于数据增强和图匹配网络的问句匹配研究

来源 :武汉大学 | 被引量 : 0次 | 上传用户:littlev19
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着语音助手、问答社区、智能客服等应用的兴起,人们更愿意使用方便快捷的互联网检索自己感兴趣的内容。然而,对于同一种问题,每个人的表述方式却不尽相同。如何正确理解用户意图,从数以百万计的问题库中返回最相似的问题是工业界以及学术界研究的重点。传统的问句匹配模型基于人工构造特征计算文本之间的相似度。然而,人工构造的特征只考虑了文本的浅层次信息,也不具备可迁移能力。现有的深度学习匹配模型虽然能够挖掘文本的深层次语义信息,但忽略了文本的句法结构特征,无法准确地捕捉问句之间的匹配关系。同时,当前的问句匹配数据集存在语料不足、缺乏多样性等问题,进一步导致问句匹配模型在实际应用时效果不佳,缺乏鲁棒性。基于当前问句匹配方法的不足,本文提出了基于数据增强与图匹配网络的问句匹配方法。本文的主要贡献包括:1)针对现有方法忽略了问句文本句法结构特征的问题,本文结合注意力机制与依存句法分析,充分挖掘文本的深层次特征。首先利用Bert预训练模型对文本的语义信息进行编码,并通过注意力池化得到嵌入向量。然后对问句进行依存句法分析,建立文本语义单元之间的依赖关系,并利用自注意力机制学习不同句法成分的重要性,使模型聚焦于核心语义单元。最后,融合文本的语义特征与句法结构特征,实现问句文本的增强表示。2)针对现有模型无法准确捕捉问句之间匹配关系的缺点,设计了图匹配网络提取问句之间丰富的交互特征。在问句的句法结构图中,首先利用图注意力网络聚合依赖词的节点特征。然后,在待匹配问句对的任意词之间建立连接,结合注意力机制进行充分的交互。最后,通过多视角余弦相似度挖掘问句之间的差异,更好地把握语义焦点,得到更加准确的匹配结果。3)针对当前问句匹配数据集语料不足、缺乏多样性的问题,以及现有数据增强方法无法有效提升问句匹配效果的现状,本文从字词、句子粒度实现了面向问句匹配的数据增强方法。具体而言,本文设计了基于实体替换算法、同义词替换及随机插入算法、字词噪声增强算法以及回译算法,提高数据集的多样性,并进一步提升模型的匹配效果和实际应用中的鲁棒性。通过与多个先进的问句匹配模型进行对比实验,结果表明本文提出的基于数据增强与图匹配网络的问句匹配方法能够更好地挖掘问句文本之间的相似性。同时,从词汇理解、句法结构、对话类文本、口语化文本、错别字等维度进行评估,实验结果验证了本文提出的面向问句匹配的数据增强方法能够显著提升模型在实际应用中的鲁棒性,且优于现有的数据增强方法,并通过消融实验,验证了算法的各个模块对问句匹配模型的效果皆有提升。
其他文献
信息抽取是自然语言处理中的一个重要研究方向,以其广阔的应用前景被许多的研究人员所关注。一方面信息抽取技术可以提高用户筛选和接受信息的效率,另一方面基于信息抽取构建的知识库可以为下游任务提供外部知识支撑,从而提升任务性能。信息抽取目的是抽取出文本中的实体、关系、事件等信息,并将其形成结构化的信息输出。虽然研究者们已经在信息抽取领域展开了许多研究,但是该领域仍然存在一些复杂的情况亟待解决,具体包括:在
学位
新型冠状病毒肺炎疫情肆虐全球的大背景下,各国政府和民众对远程医疗服务的需求急剧增加,医疗机构通过提供远程健康监测、在线诊疗等服务,最大限度地减少各类人员接触病毒的风险,同时降低医疗成本,提升医疗质量。然而,远程医疗服务处在开放式网络中,容易遭受各类网络攻击,这将对敏感的医疗数据造成严重的安全威胁和隐私泄露问题。此外,远程医疗服务往往要求医疗机构之间数据互联互通,但当前存在“信息孤岛”等问题,影响机
学位
随着计算机技术的高速发展,软件系统的规模不断扩张,面临的安全问题也日益复杂严峻。因此,对软件的安全审查与分析变得至关重要。由于软件厂商通常都不会开放源代码,二进制程序分析逐渐成为软件安全研究的热门领域,在评估软件安全威胁、提高软件安全性等方面有着极其重要的应用价值。由于缺少高级语义信息,二进制程序的分析是困难且复杂的。二进制程序分析要求不仅能够在二进制层面提供较为精确的分析结果,并且可以尽量还原高
学位
采用复合改性剂制备高固含量复合型冷拌冷铺乳化沥青,通过添加减水剂改善混合料的路用性能,研究高固含量复合型冷拌冷铺乳化沥青混合料的级配设计,并通过试验对其路用性能进行验证。结果表明,高固含量复合型冷拌冷铺乳化沥青混合料的马歇尔稳定度、水稳定性能、高温性能和低温性能都能达到热拌沥青混合料的技术要求,满足沥青路面使用要求。
期刊
随着《义务教育语文课程标准(2022年版)》的颁布,培养学生的思辨能力成为义务教育阶段语文教学的重要内容。同时,小学高年段阅读教学中思辨能力培养的具体手段、方法、路径等问题亟待解决。阅读策略教学或可以成为一线教师的选择。实践证明,“联结—推测—转化”三种策略形成的策略链可以较好地助力学生思辨能力的发展。此外,学生可以运用策略链学习统编教材中部分篇目和单元,在自主、合作、探究的阅读过程中培养思辨能力
期刊
目的 研究冷拌冷铺乳化沥青混凝土的开放交通强度,为道路标准的制定提供参考。方法 通过室内试验,探究冷拌冷铺乳化沥青混凝土在不同养生时间的劈裂强度、高温稳定性、水稳定性和低温抗裂性,依据普通热拌沥青混合料和改性沥青混合料的规范要求,提出冷拌冷铺乳化沥青混凝土开放交通强度。结果 当以热拌普通沥青混合料为标准时,初定开放交通强度为0.58 MPa;以热拌改性沥青混合料的相关要求为判据时,初定开放交通强度
期刊
自然语言查询转SQL语句(Nature Language to Structured Query Language,NL2SQL)任务就是在给定数据库的情况下,将自然语言问句描述转化成对应的SQL查询语句。本文着眼于信息化技能薄弱的工厂业务人员和管理人员数据分析效率低下的问题,构建了基于深度学习的中文工业NL2SQL模型。利用NL2SQL模型,工厂的业务人员和管理人员可以在不熟悉具体数据表结构信息
学位
Geohash编码作为一种降维技术已应用于众多空间数据库和空间数据引擎中,但关于其安全性的研究还较少。本文关注Geohash编码存在的安全漏洞,从理论上分析了此种降维技术产生推理通道的原因,并设计了两种基于k近邻查询的加密Geohash索引重构算法和一种基于区域查询的加密Geohash索引重构算法,通过观察大量查询响应进行统计推断并重构出加密Geohash的原始值,具体工作如下:1)研究基于k近邻
学位
以往道路改造大多采用路面结构挖除重建、加铺等手段,易造成环境的污染及资金、资源的浪费。道路养护维修设计作为项目实施的依据,应积极推广应用四新技术,降低施工成本,缩短施工工期,提高项目质量,减少施工废弃料对环境的污染,提高项目的科技含量,响应国家“建设节约型社会、可持续性发展”的号召。
期刊
当前的区块链交易本身存在高延迟、高手续费等问题,这些问题与实际支付场景直接冲突。针对以上问题的现有研究包括状态通道、支付中心等方案,将链上支付转移至链下从而缩短支付时延。但是一方面,现有研究未充分考虑现实支付场景,不能有效降低交易手续费。另一方面,现有研究引入了大量的额外资金,提高了使用者的资金门槛。因此,本文提出了一种基于商户联盟的区块链快速交易架构方案。本文设计了两种适用于支付场景的数据存储结
学位