自然语言生成中基于对抗学习的属性控制方法研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:likuaiji
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语言是人类进行信息表达和交流的重要工具。通过运用语言,人类既可以描述客观事实,又可以表达主观思想。随着深度学习技术的快速发展,自然语言生成(Natural Language Generation,简称NLG)这一自然语言处理与人工智能的核心研究方向,在学术界受到了越来越多的关注,在工业界也出现了大量实际应用,如机器写作、聊天机器人等。灵活性与多样性是人类语言表达的重要特点。对于相同或相似的语义内容,人类可以灵活地使用多种不同的表达形式进行描述。出现这种现象的原因在于,在组织语言的过程中,人类既需要考虑描述什么语义内容,又会受到一些独立于语义内容的属性因素的影响,如语言风格、情感态度等。为了在实际场景中取得更好的应用效果,模型或系统在产生结果时,既要保证预期的语义内容被准确描述,又要对表达形式加以控制,使之符合具体场景的要求。于是,越来越多的研究者开始关注自然语言生成中的属性控制问题。在自然语言生成中引入属性控制,一方面要求模型能在指定属性上对生成结果的表达形式有着较好的控制效果,另一方面还要保证生成文本描述中属性无关的语义内容符合预期。大多数现有方法已经可以做到对属性的精准控制,但相关模型经常会生成一些语义内容严重不符合预期的结果。针对这一问题,本文分析了对自然语言生成的基本方法与属性控制研究的前沿进展,指出它们存在的共同问题是:在训练过程中,缺少对输入与输出序列之间语义关联的直接监督。基于对抗学习的框架,本文提出通过引入语义内容相关的判别模型来对带有属性控制的语言生成模型提供指导,并针对文本改写和对话生成两个语言生成任务分别给出了解决方案,主要工作如下:1.针对文本属性改写任务,本文提出了一种基于原文部分对照机制的对抗文本属性改写模型学习框架。为了更好地利用非平行语料中的信息,本文提出了一种语料挖掘方案,用于从非平行语料中挖掘出一些关于属性转换和内容保留的成对数据;然后,本文引入两个原文部分对照模型,分别在两个方面从成对数据中学习如何对照改写结果与原文以判断二者之间的关系,并在改写模型训练阶段提供指导实验结果表明,本文提出的方案能够有效提升文本属性改写模型的语义内容保留效果。2.在对话系统回复生成任务中,现有模型倾向于生成一些与输入语义关联度较低的“通用回复”,在属性可控的对话生成场景下,这一问题变得更加严重。与文本属性改写任务不同,大多数可控对话生成场景都存在较大规模的平行语料。对此,本文提出了一种新的可控生成模型学习框架,通过对抗学习与多任务学习的方式,对基于平行语料训练的属性可控对话生成模型与基于非平行语料训练的文本属性改写模型进行优势互补,从而加强对话生成模型学习语义关联的能力。实验结果表明,本文提出的方法能在取得精确属性控制的同时,显著提高生成回复的语义相关性与生成多样性。
其他文献
智能驾驶的发展,使得协同自适应巡航控制(Cooperative Adaptive Cruise Control,CACC)成为近年来研究的热点问题。该技术能够形成有较小的车辆间距,同时能够避免扰动沿车辆队
2010年以前,大小兴安岭重点国有林区以高强度采伐的方式导致了森林资源空心化、生态安全保障功能减弱、林区民生问题严重、林区经济发展举步维艰;2011年,实施全面停止主伐并
当今社会,世界经济正一步步向着一体化的方向前进,在此大环境下,对于销售和服务业来说,其顾客需求正逐渐向更加个性化方向发展,需求不确定性因素不断增多,企业采购模式随之发生变化。企业决策者优先考虑自身目标利润,供应链利润最大化不受重视,势必造成供应链绩效下降。为此国内外都对于此问题做出了一系列研究,供应链契约便是一个研究方向。从经济学角度来讲,资源总是稀缺的,采购资金更是尤为重要,因此采购行为中考虑资
提升需求侧响应从而更加合理的引导用户用电,以期达到节能减排、可持续发展的目的日益成为时代发展的主题。为实现这一目标,基于用户用电行为的非侵入式负荷监测(Nonintrusiv
光纤传感器具有灵敏度高、耐腐蚀、抗电磁干扰、体积小、重量轻等实用性优势,在石油开采、地质勘探和生物化学检测等领域中应用广泛。其中,多模-单模-多模(multimode-single-
目前很多关于黑碳向青藏高原传输和对高原影响的模拟研究大多数设置的水平分辨率都低于20km,但是分辨率过低不能够完全解析喜马拉雅山的复杂地形。在本文的研究中,我们使用大
振动信号在土木、航空、大型机械等许多领域都具有重要的研究意义,是各界学者的广泛关注的一个重要问题,振动传感器的研究是进行振动信号监测的重要一环。光纤光栅传感器具有
在物联网高速发展的今天,蓝牙(Bluetooth)已经成为了应用最广泛的短距离无线通信协议。在蓝牙家族中,BLE(Bluetooth Low Energy)由于其低功耗的特性,备受各种智能设备的青睐。BLE也因此在蓝牙家族中占据了举足轻重的地位。目前针对BLE的攻防研究大多集中于破解消费级智能设备和挖掘操作系统的BLE协议栈漏洞,而针对BLE链路层本身的攻防研究则十分罕见,相关的工具仅有GitHu
二氧化氮气体在工业、航空等领域起着重要作用,同时也是一种常见的污染气体。人体短时间暴露在1 ppm浓度的二氧化氮环境中,呼吸道系统便会受到损伤。长时间暴露在二氧化氮超
数字图像处理是使用计算机对图像进行除噪、增强、修复、分割等处理的技术,其中数字图像修复技术是图像处理技术研究的热门领域。图像修复是指通过对破损图像中有效信息的处