论文部分内容阅读
随着互联网的快速发展,全球每天都会不断的产生大量的文本数据,这些文本数据存在多种多样的表现形式,这使计算机在处理这些自然语言数据造成了巨大的困难。本文研究的自然语言推理是自然语言处理领域相对基础的一项研究,是机器翻译,机器阅读,机器问答等算法的基础。过去几十年中,基于手工特征的自然语言推理研究占据了该领域的主流,但随着算力和人工智能算法的发展,深度学习算法开始被应用到自然语言处理的各个方向,其中也包括自然语言推理,因为深度学习的引入,使自然语言推理的水平大幅提高,也间接的推动了自然语言处理其他领域的发展。本文提出了一种基于融合句法信息的序列-树型编码模型的自然语言推理方法。首先我们提出了词性分布式表达向量来表示文本中单词的词性信息,弥补了现有词向量缺少词性信息的不足,从而解决了具有多种词性的单词的向量表示,同时增加了词性信息,使词向量包含更多信息,有利于后续网络的特征学习。其次本文使用了顺序序列形式的Bi-LSTM网络对文本进行编码,该网络编码好的句向量含有单词的上下文关系。同时本文利用树型LSTM网络对文本的依存树进行编码,该网络编码的句向量则含有源文本中词与词的依赖关系,通过顺序序列的Bi-LSTM网络和树型LSTM网络两种不同形式结构的网络共同对前提和假设进行编码,最大程度的保留原文本的句法和词性信息,并通过本文提出的基于Sentence Fusion的句向量混合模型对前提和假设的句向量进行融合,完成蕴含关系的识别。本模型在斯坦福自然语言推理数据集上进行训练,并在测试集上取得了良好的表现。