论文部分内容阅读
自然语言处理是人工智能领域的关键技术,其包括自然语言理解和自然语言生成两类基本问题。而解决上述两类问题的首要核心就是获得自然语言的语义表征。自然语言文本的构成层级依次为单词、句子、篇章,其中单词表征的好坏会直接影响后续各级文本表征的质量;语句作为最简单的语义单元序列,其语义表征方法也会被用来处理由多句组成的篇章文本。现阶段,基于深度学习的单词及句子语义表征技术已经取得了积极进展,但仍存在诸多不足。首先,基于分布式语义假设从文本语料中获取的文本语义词向量,其包含的语义信息受制于单一数据来源而缺乏全面性;其次,在面向自然语言理解任务的句子语义表征中,领域内主流使用的循环神经网络无法直接建模句子中的潜在结构信息;再次,在面向自然语言生成任务的句子语义表征中,主流的条件变分自编码器模型在闲聊对话场景下无法有效获取受控于输入对话上文与情感风格的隐变量表征。因此,本文围绕基于深度学习的自然语言语义表征方法,在单词级别和句子级别的语义表征计算方面开展研究,具体包括:首先,研究了结合脑观测数据的单词语义表征方法。通过分析不同模态语义特征的词向量(包括文本语义词向量,视觉语义词向量、初级视觉特征词向量)与脑观测数据的相关性,探索了大脑皮层的语义表征规律,进而确定了文本语义词向量中所包含的语义信息是不充分全面的;进一步提出了结合脑观测数据的语义词向量构建方法,将脑观测数据转换为词对语义相似度不等式,并将此不等式作为约束加入到文本词向量的学习过程中,提升了词向量与人工标注语义数据的相关性。其次,研究了基于潜在结构描述的句子语义表征方法。针对领域内广泛使用的循环神经网络无法直接利用句子中潜在结构信息,而树形递归神经网络依赖外部句法解析器、编码效率低等问题,提出了一种基于潜在结构描述的序列编码器模型。该编码器不依赖任何外部句法解析器,以端到端的方式学习利用句子中潜在的断句结构信息,提升了模型在自然语言推理及情感分类任务上的准确率。再次,研究了基于条件转换变分自编码器的句子语义表征与对话生成方法。针对条件变分自编码器在闲聊对话场景下,输入条件(对话上文)对隐变量表征分布的调控作用受限问题,提出了一种条件转换变分自编码器模型。该模型通过对输入条件及来自条件无关分布的采样进行非线性变换,得到了和对话上文更相关的隐变量表征,提升了闲聊回复生成的流畅度、主题关联度和信息量。最后,研究了基于情感约束变分自编码器的句子语义表征与情感可控对话生成方法。典型的条件变分自编码器无法直接通过对隐变量的采样来实现情感可控的回复生成,而情感风格与语义内容的纠缠性也加大了这一问题的难度。本文提出了一种情感约束的条件变分自编码器模型,该模型假设了隐变量表征是语义信息及情感信息的混合表征,并对隐变量分布引入了相应的情感约束,获得了结构性更强且信息量更丰富的隐变量分布,提升了闲聊回复生成的情感控制与内容表达能力。