论文部分内容阅读
语言是人类进行信息表达和交流的重要工具。通过运用语言,人类既可以描述客观事实,又可以表达主观思想。随着深度学习技术的快速发展,自然语言生成(Natural Language Generation,简称NLG)这一自然语言处理与人工智能的核心研究方向,在学术界受到了越来越多的关注,在工业界也出现了大量实际应用,如机器写作、聊天机器人等。灵活性与多样性是人类语言表达的重要特点。对于相同或相似的语义内容,人类可以灵活地使用多种不同的表达形式进行描述。出现这种现象的原因在于,在组织语言的过程中,人类既需要考虑描述什么语义内容,又会受到一些独立于语义内容的属性因素的影响,如语言风格、情感态度等。为了在实际场景中取得更好的应用效果,模型或系统在产生结果时,既要保证预期的语义内容被准确描述,又要对表达形式加以控制,使之符合具体场景的要求。于是,越来越多的研究者开始关注自然语言生成中的属性控制问题。在自然语言生成中引入属性控制,一方面要求模型能在指定属性上对生成结果的表达形式有着较好的控制效果,另一方面还要保证生成文本描述中属性无关的语义内容符合预期。大多数现有方法已经可以做到对属性的精准控制,但相关模型经常会生成一些语义内容严重不符合预期的结果。针对这一问题,本文分析了对自然语言生成的基本方法与属性控制研究的前沿进展,指出它们存在的共同问题是:在训练过程中,缺少对输入与输出序列之间语义关联的直接监督。基于对抗学习的框架,本文提出通过引入语义内容相关的判别模型来对带有属性控制的语言生成模型提供指导,并针对文本改写和对话生成两个语言生成任务分别给出了解决方案,主要工作如下:1.针对文本属性改写任务,本文提出了一种基于原文部分对照机制的对抗文本属性改写模型学习框架。为了更好地利用非平行语料中的信息,本文提出了一种语料挖掘方案,用于从非平行语料中挖掘出一些关于属性转换和内容保留的成对数据;然后,本文引入两个原文部分对照模型,分别在两个方面从成对数据中学习如何对照改写结果与原文以判断二者之间的关系,并在改写模型训练阶段提供指导实验结果表明,本文提出的方案能够有效提升文本属性改写模型的语义内容保留效果。2.在对话系统回复生成任务中,现有模型倾向于生成一些与输入语义关联度较低的“通用回复”,在属性可控的对话生成场景下,这一问题变得更加严重。与文本属性改写任务不同,大多数可控对话生成场景都存在较大规模的平行语料。对此,本文提出了一种新的可控生成模型学习框架,通过对抗学习与多任务学习的方式,对基于平行语料训练的属性可控对话生成模型与基于非平行语料训练的文本属性改写模型进行优势互补,从而加强对话生成模型学习语义关联的能力。实验结果表明,本文提出的方法能在取得精确属性控制的同时,显著提高生成回复的语义相关性与生成多样性。