基于深度学习的自然语言语义表征计算方法研究

来源 :中国科学技术大学 | 被引量 : 2次 | 上传用户:yiqikeren
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言处理是人工智能领域的关键技术,其包括自然语言理解和自然语言生成两类基本问题。而解决上述两类问题的首要核心就是获得自然语言的语义表征。自然语言文本的构成层级依次为单词、句子、篇章,其中单词表征的好坏会直接影响后续各级文本表征的质量;语句作为最简单的语义单元序列,其语义表征方法也会被用来处理由多句组成的篇章文本。现阶段,基于深度学习的单词及句子语义表征技术已经取得了积极进展,但仍存在诸多不足。首先,基于分布式语义假设从文本语料中获取的文本语义词向量,其包含的语义信息受制于单一数据来源而缺乏全面性;其次,在面向自然语言理解任务的句子语义表征中,领域内主流使用的循环神经网络无法直接建模句子中的潜在结构信息;再次,在面向自然语言生成任务的句子语义表征中,主流的条件变分自编码器模型在闲聊对话场景下无法有效获取受控于输入对话上文与情感风格的隐变量表征。因此,本文围绕基于深度学习的自然语言语义表征方法,在单词级别和句子级别的语义表征计算方面开展研究,具体包括:首先,研究了结合脑观测数据的单词语义表征方法。通过分析不同模态语义特征的词向量(包括文本语义词向量,视觉语义词向量、初级视觉特征词向量)与脑观测数据的相关性,探索了大脑皮层的语义表征规律,进而确定了文本语义词向量中所包含的语义信息是不充分全面的;进一步提出了结合脑观测数据的语义词向量构建方法,将脑观测数据转换为词对语义相似度不等式,并将此不等式作为约束加入到文本词向量的学习过程中,提升了词向量与人工标注语义数据的相关性。其次,研究了基于潜在结构描述的句子语义表征方法。针对领域内广泛使用的循环神经网络无法直接利用句子中潜在结构信息,而树形递归神经网络依赖外部句法解析器、编码效率低等问题,提出了一种基于潜在结构描述的序列编码器模型。该编码器不依赖任何外部句法解析器,以端到端的方式学习利用句子中潜在的断句结构信息,提升了模型在自然语言推理及情感分类任务上的准确率。再次,研究了基于条件转换变分自编码器的句子语义表征与对话生成方法。针对条件变分自编码器在闲聊对话场景下,输入条件(对话上文)对隐变量表征分布的调控作用受限问题,提出了一种条件转换变分自编码器模型。该模型通过对输入条件及来自条件无关分布的采样进行非线性变换,得到了和对话上文更相关的隐变量表征,提升了闲聊回复生成的流畅度、主题关联度和信息量。最后,研究了基于情感约束变分自编码器的句子语义表征与情感可控对话生成方法。典型的条件变分自编码器无法直接通过对隐变量的采样来实现情感可控的回复生成,而情感风格与语义内容的纠缠性也加大了这一问题的难度。本文提出了一种情感约束的条件变分自编码器模型,该模型假设了隐变量表征是语义信息及情感信息的混合表征,并对隐变量分布引入了相应的情感约束,获得了结构性更强且信息量更丰富的隐变量分布,提升了闲聊回复生成的情感控制与内容表达能力。
其他文献
民群认同是民族成员对自己民族身份认识了解和接纳的态度,一般反映在民族认知、民族情感和民族行为三个维度。对青海省藏族与蒙古族青年的民族认同调查发现,两个民族的青年对
长江中下游麦区是我国主要的粮食生产基地之一,但目前该地区小麦生产却受到太阳辐射逐渐降低、开花后阴雨寡照天气频发而且持续连阴雨天气时间较长的影响,小麦的产量和品质受
目的探讨家蝇胚胎细胞系建立的影响因素。方法取不同发育时间的家蝇卵(胚胎),用不同培养基将细胞培养于玻璃培养瓶和塑料培养瓶中,观察细胞生长。结果产出约6h的家蝇胚胎细胞能生
目的探讨社区干预对精神分裂症患者生活质量的影响。方法将120例男性精神分裂症患者随机分为实验组与对照组各60例。出院后对实验组家属和患者进行定期康复指导,实施社区干预.