论文部分内容阅读
认知智能旨在实现机器具备像人一样的理解、联想、推理等能力,是人工智能的重要领域。自然语言语义表达与常识推理是认知智能研究的关键任务。自然语言语义表达指的是将自然语言转换成机器可以处理的语义表征形式,是实现自然语言理解的基础。现阶段的语义表达方法主要基于统计分布假设,利用海量文本与统计建模,将自然语言中的语义信息表征为高维稀疏或低维稠密的向量形式。如何提高语义表征向量的精度仍然是当前语义表达研究的关键问题。常识推理关注机器对常识知识的运用以及推理能力。现阶段的常识推理方法仍以马尔科夫逻辑网络、贝叶斯网络等传统概率逻辑推理方法为代表。这些方法往往存在模型结构复杂、先验信息依赖性强、效率低、扩展性差等问题。本文围绕基于神经网络的自然语言语义表达及推理方法,在词语语义表达、面向常识推理的神经网络模型、常识知识库构建方法和自然语言推理系统等方面开展研究工作,具体包括:首先,研究了融合多源信息与神经网络建模的词语语义表达方法。现有词语语义表达方法单一依赖基于海量文本的统计分布假设,受文本噪声和歧义等影响,语义表达的精度不够理想。因此本文提出了融合海量文本与词汇语义知识的语义词向量构建方法和词性信息监督下的词性增强词向量方法,通过在神经网络训练过程中合理利用语义知识库、词性序列等多源信息,提高了单词语义表达精度,取得了多个自然语言理解任务上的性能提升。其次,研究了面向常识推理的神经网络建模方法。针对传统推理方法中存在的事件表达稀疏性与推广性问题,本文将连续语义空间表达引入常识推理,提出了神经联想模型。该模型将大量自然事件映射到连续语义空间中,利用深层人工神经网络实现对事件间联想关系的统一建模,最终完成基于事件联想的常识推理。在多个自然语言理解及推理任务上的实验结果表明,神经联想模型取得了优于现有模型的性能,并且具有良好的知识迁移学习能力。再次,研究了基于海量文本的常识知识库自动构建方法。针对常识知识库稀缺且人工构建代价高的问题,本文提出了基于海量文本的因果知识获取方法。该方法首先定义常用词语词典用于约束常识知识库的构建空间,然后在海量文本上进行核心句抽取与自动分析操作,最终得到大量具有因果关系的短语对作为常识知识库。基于以上方法,本文完成了包含五十余万条因果短语对的常识知识库的构建,为后续的自然语言推理系统构建提供了数据支撑。最后,设计实现了面向认知智能评测的自然语言推理系统。在上述语义表达、常识推理模型、常识知识库构建等研究工作的基础上,构建了面向Winograd Schema Challenge(WSC)评测任务的自然语言推理系统。针对常识推理子任务,设计实现了基于常识知识库和神经联想模型的因果推理系统,首次完成了 WSC因果子集上的自动常识推理;针对指代消解子任务,提出了基于知识增强语义模型的推理方法,采用语义词向量技术将常识知识融入词向量构建过程,实现了缺少任务相关训练数据情况下无监督的语义特征提取与推理,使用该方法构建的系统在2016年的WSC评测中取得了最优的性能表现。