基于迁移学习的任务型对话系统关键技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:wdc145
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对话系统是指以人机对话形式提供信息或服务的系统,越来越受到学术界和工业界广泛的关注。目前,对话系统从功能上可以大致分为四大类:任务型对话系统、闲聊型对话系统、知识问答系统以及推荐系统。本文重点研究任务型对话系统,它能够帮助人们完成一些垂直领域的服务,例如查话费、酒店预订和订机票等,具有很高的理论意义和实用价值。近年来,任务型对话系统的研究主要分为两个流派:流水线任务型对话系统和端到端任务型对话系统。其中流水线任务型对话系统主要由对话语言理解模块、对话状态跟踪模块、对话策略学习模块和自然语言生成模块组成,并需要通过各个子模块协同工作一起生成对话系统回复。而端到端任务型对话系统则可以直接通过一个统一的序列到序列模型生成对话系统的回复。对话语言理解模块为流水线任务型对话系统中的第一个组件,它主要负责提取用户的语义表示,并为后续模块生成最终系统回复提供基础,因此它是流水线任务型对话系统中最核心的模块之一。随着深度学习和预训练模型的发展,不管是流水线系统还是端到端任务型对话系统都取得了突飞猛进的发展。然而在真实应用中,它们仍然面临着一个巨大的挑战:数据稀缺。现有的对话模型依赖大量高质量的标注数据进行训练,导致难以泛化到数据稀缺的场景。同时,不同于其它传统的自然语言处理任务,对话领域的数据标注往往需要专家的大量先验知识,进一步增加了大规模的任务型对话系统标注数据获得的难度。而且,在真实应用中,当对话系统扩展到不同的任务、不同的语言与不同的领域的时候,都会面临数据稀缺的问题。于是,如何在数据稀缺的低资源场景中构建性能良好的的任务型对话系统中是一个非常有价值的研究课题。为此,本文探索了迁移学习在任务型对话系统中的应用:即利用迁移学习技术实现从数据充足的源端迁移知识到数据不足的目标端来缓解任务型对话系统中数据稀缺的问题。具体来说,本文以流水线任务型对话系统中的对话语言理解模块和端到端任务型对话系统为切入点,分别从跨任务,跨领域,跨语言迁移进行了详细研究:1.(跨任务迁移)基于堆栈传播的跨任务对话语言理解:针对现有跨任务对话语言理解模型对意图识别和槽位填充任务进行隐式联合建模而导致的意图信息迁移不充分问题,本文提出一个基于堆栈传播的跨任务对话语言理解框架。具体而言,本文首先提出一个堆栈传播框架来显式引入意图信息。同时,为了缓解意图信息引入导致的错误级联问题,本文进一步提出单词级别的意图识别,能够为每个单词提供单词级别的意图信息。本文提出的框架不仅在标准数据集上取得了当时的最优性能,也提高了对话语言理解联合模型的可解释性。并且,当在数据特别稀缺的场景中(5%的训练数据),基于堆栈传播的框架能够大幅度超越前人工作的性能(19.8%的提升),极大的缓解了跨任务中数据不足的问题。2.(跨任务迁移)基于协同交互Transformer的跨任务对话语言理解:针对现有对话语言理解模型仅建模从意图信息到槽位填充的信息迁移的局限,本文提出了一种协同交互Transformer的框架来考虑意图识别和槽位之间的相互影响。不同于传统Transformer中的自注意机制,本文提出了一个协同交互注意力模块,从而能在两个相关任务之间建立双向连接。并且,本文进一步改进了前馈神经网络层来更好地融合两个任务的交互。本文提出的双向交互模型能够在低资源场景下(5%的训练数据)取得超越前人单向交互模型26.7%的性能,极大地缓解了对话语言理解任务中真实部署中的冷启动问题。3.(跨语言迁移)基于编码转换与对比学习的跨语言对话语言理解:针对现有对话语言理解模块在跨语言场景下的弱泛化性,本文首先提出基于编码转换的跨语言对话语言理解框架,能够通过在编码转换的数据上微调预训练语言模型来隐式对齐多语言预训练模型在不同语言上的表示空间。并且,本文进一步提出对比学习来显式对齐不同语言上的表示。具体而言,对比学习可以显式拉近同一句子在不同语言上的表示(正例),推远不同句子在不同语言上的表示(负例)。本文提出的框架在不需要目标语言数据的零样本跨语言对话语言理解任务上取得了当时的最优性能,极大地促进了任务型对话系统的全球化发展。4.(跨领域迁移)基于动态聚合网络的跨领域端到端任务型对话系统:针对现有端到端任务型对话系统难以泛化到一些低资源新领域的问题,本文提出一个基于动态聚合网络的跨领域端到端任务型对话系统,该网络不仅能够显式融合领域共享和领域私有的特征,还能自动学习不同领域的相关性用以捕获不同领域之间的细粒度关系。本文提出的模型能够取得当时最优的性能。当在数据特别稀缺的场景(5%的训练数据),本文提出的模型能够获得优于前人最佳模型13.9%的性能,极大地提高了模型在跨领域场景的泛化能力。综上所述,本文针对任务型对话系统中标注数据不足的问题,以流水线任型对话系统中的对话语言理解和端到端任务型对话系统为切入点,深入研究了跨任务迁移、跨领域迁移和跨语言迁移三种迁移技术,显著缓解了数据稀缺问题,以及提高了模型在跨任务,跨语言以及跨领域场景下的泛化能力。
其他文献
利用城市公园中的声景和景观不但可以掩蔽交通声的声信息和声能量,而且能够改善城市公园的声环境,从而使使用者达到良好的心理反应状态。然而,近年来的相关研究明显不足,且基于心理反应的声掩蔽作用机制并不清晰。因此,本文旨在通过研究基于心理反应的城市公园声景掩蔽阈值,明确掩蔽目标和掩蔽方法,在此基础上,计算出积极声源对交通声的声信息掩蔽机制以及典型景观对交通声的声能量掩蔽机制,并最终设计和优化了改善使用者心
学位
室内环境影响着人们的感受、健康和工作效率,开展室内环境舒适度评价十分必要。目前室内环境舒适度的研究多围绕单环境条件展开,然而室内环境并非仅存在一种环境因素,因此考虑多环境条件,对室内舒适度展开评价更具合理性。但是已有多环境条件的舒适度研究对环境参数与舒适度感受间的联合作用、环境参数波动性、舒适度不确定性分布等考虑不全,还有待于进一步完善。基于上述情况,本文针对室内物理环境舒适度,在气候室实验的基础
学位
非点源污染是影响受纳水体质量的主要污染来源。因非点源污染产生过程的复杂性,对非点源污染的研究一直是社会各界关注的重点,这不仅影响生态环境的建设,也关系到农业可持续发展的进程。阿什河流域是我国北方寒冷地区的典型小流域,农业与矿产资源丰富,因此农业生产与采矿业均较为发达。多年高强度的农业生产方式导致了化学用品使用量的逐年增加,并且矿产开采过程中污染物质会随着径流的迁移对周围生态环境造成危害。因此,各类
学位
作为中国北方城市,哈尔滨受以PM2.5污染为主的大气环境问题影响。PM2.5污染在采暖期甚至上升为哈尔滨市的首要环境问题,但是污染形成的影响机制、PM2.5中无机氮组分生成路径、无机氮组分前体物排放源贡献率、微生物组多样性及与环境因子的关联等问题仍不明确。因此,有必要对PM2.5污染特征和组分特征及污染成因进行研究,尤其是2017年哈尔滨市PM2.5年均浓度出现反弹,该年份出现的PM2.5污染更值
学位
降雪会降低道路摩擦系数,增加车辆油耗,引发车辆碰撞、刮擦事故,影响道路通行能力,甚至威胁人民生命财产安全。为了及时除雪、保障道路通畅,高效除雪技术不断被提出,这些除雪技术中,循环流体加热路基融雪系统可根据天气条件主动除雪,系统可控性强、节能高效、热源广泛、安装简便,具有巨大的发展潜力和广阔的应用前景。但是系统仍存在能耗设计不合理、缺乏系统特性评估等问题,因此,本文结合实验和数值模拟,深入研究严寒地
学位
药品和个人护理产品(PPCPs)作为新兴的有机污染物,因其在世界范围内的广泛使用及其对水生环境和人类健康的潜在风险而备受关注,已成为污水处理领域的一大挑战。以半导体催化剂为核心的光催化技术在处理PPCPs方面具有巨大的应用前景。近年来,研究人员对光催化剂开展了大量的研究,研发了一批性能优异的光催化材料,但目前仍未能找到可替代TiO2的新一代可应用材料。究其原因,主要是人们重点关注的的光催化材料普遍
学位
细菌感染对人类健康和生命构成严重威胁。抗生素的发现有效地控制了细菌感染疾病的发展,并大幅降低了感染性疾病的死亡率。随着抗生素不规范使用和滥用现象的加剧,临床细菌耐药问题日趋严重。尽管研究者投入了大量的精力对小分子库和常规的天然药物进行了筛选,但是,发现具有新作用方式的抗生素仍是一项艰巨的科学挑战。因此,加快新型抗生素的研发速度,探索一种不易产生细菌耐药性的抗菌策略迫在眉睫。在现有抗菌纳米材料中,金
学位
随着水-能关系的日益紧张,探索低能耗和高效率的淡水获取方式成为当务之急。相比其他的海水淡化方式,膜蒸馏技术因其分离效率高、操作条件温和、对薄膜力学性能要求低、可利用低品位热源等特点受到广泛关注。但是温度极化效应等问题的存在导致膜蒸馏过程能耗过高、效率较低,阻碍其进一步的发展和应用。尽管采用光热和焦耳热等自热膜蒸馏过程能够有效缓解上述问题,但是目前依旧缺乏能够实现稳定和高效淡水输出的高质量复合薄膜,
学位
本征正交分解(POD)和动态模态分解(DMD)是流体力学中处理流场数据的两种最常用的降维和模态分解方法,由这些方法得到的低维特征和分解模态在流动分析、降阶建模和流量控制等方面取得了相当的研究成果。然而这些线性低维特征在高雷诺数或复杂流场数据中不能保证同样的可解释性,且线性方法需要更多的分解模态来描述流动的主要流动特征。因此本文将研究基于非线性数据处理工具神经网络方法,推广用于流体系统的降维、模态分
学位
随着现代化知识抽取技术的不断发展,许多领域都构建和发布了知识图谱。尽管当前有大量图数据管理方法提出,但是难以满足知识图谱体量大、模式复杂、更新频繁的特点对知识图谱存取提出的新要求,主要体现在下述两个方面:其一,知识图谱模式复杂的特点使得其存取方式相比关系数据更为复杂。而现有的图数据存储结构和索引的选择方法通常交由数据库管理员负责,而知识图谱体量大的特点使得数据库管理员难以掌握图的全貌,因此人工存取
学位