论文部分内容阅读
序列-序列模型是人工智能领域(特别是自然语言处理领域)普遍使用的模型之一。这个模型能够使用一个统一的框架,直接将输入序列转化为输出序列。许多问题都能够转化为这种形式的问题,进而能够使用序列-序列模型进行求解。无论是机器翻译、句法分析还是语音识别,通过对问题的输入和输出的形式进行合理的变换,我们可以对众多问题得到一个统一的解法。另一方面,句法信息是计算语言学的一个重要的组成部分。许多研究已经证明了句法信息对于自然语言处理的重要性。因此,使用句法信息来提升模型的性能,是长期以来自然语言处理领域的研究者们的一个重要的问题。
基于上述分析,本论文针对下面的问题进行了研究:使用句法信息增强序列一序列模型。序列-序列模型由编码器、注意力机制模块和解码器这三个部分组成,编码器和解码器的最底层都是词嵌入模块,而隐含层模块上方都可以通过添加输出模块的方法来引导隐含层的学习。因此,本论文研究了在以下三个模块通过句法信息的融合来提升序列-序列模型的性能:词嵌入模块、注意力机制模块、输出模块。同时,本论文对注意力机制的基本原理进行了分析,提出了一种全新的具有通用性的注意力机制。具体地,本论文进行了以下的研究工作。
第一,在词嵌入模块,本论文提出了三种融合句法信息的方法。针对传统的基于句法的模型对句法分析器错误敏感的问题,本论文提出了面向压缩句法森林的编码方法。针对最新的基于Transformer的神经机器翻译系统,本论文提出了基于句法的位置编码方法,将句法结点的位置信息融入到词嵌入模块。针对句法树的线性化序列长度较长的缺点,本论文提出了基于神经句法距离的词嵌入模块增强方法。这三种方法能够从不同角度使用句法信息增强词嵌入模块。
第二,在注意力机制模块,本论文提出了三种利用句法信息增强注意力机制的方法。确定性注意力机制的引入,使得基于序列-序列模型的句法分析器可以利用关于句法分析的语言学信息来指导模型的学习。基于句法的自注意力机制使用句法信息来约束Transformer中的注意力机制的模块。基于压缩句法森林的注意力机制,使得解码器能够根据句法树的质量确定句法树的权值,从而能够使用质量更好的上下文向量进行解码。
第三,在隐含层的上方,通过增加一个额外的输出层的方式,本论文提出了一种使用句法信息提升隐含层质量的方法。在隐含层的上方额外增加的输出层可以预测出神经句法距离的序列。通过使用真实的神经句法距离来引导这个序列的学习,隐含层中就会融合句法信息,从而提升了隐含层的向量表示的质量。
第四,本论文对序列-序列模型注意力机制的根本原理进行了研究。以机器翻译中的词对齐任务作为目标,通过比较使用了两种不同的神经网络的序列-序列模型效果的差异,本论文对序列-序列模型中的注意力机制提供了新的认识。此外,本论文提出了一种全新的公理化注意力机制,这种注意力机制可以应用于任何形式的序列-序列模型,与神经网络的具体结构无关。这种注意力机制模块能够很好地学习到词对齐信息。
本论文的研究使得序列-序列模型能够充分地利用句法信息这一重要的语言学特征来提升模型的性能,这对于机器翻译、句法分析以及许多其他的自然语言处理任务都很有帮助。同时,本论文对注意力机制模型的探索能够为其他关于序列-序列模型的研究提供一些全新的认识。
基于上述分析,本论文针对下面的问题进行了研究:使用句法信息增强序列一序列模型。序列-序列模型由编码器、注意力机制模块和解码器这三个部分组成,编码器和解码器的最底层都是词嵌入模块,而隐含层模块上方都可以通过添加输出模块的方法来引导隐含层的学习。因此,本论文研究了在以下三个模块通过句法信息的融合来提升序列-序列模型的性能:词嵌入模块、注意力机制模块、输出模块。同时,本论文对注意力机制的基本原理进行了分析,提出了一种全新的具有通用性的注意力机制。具体地,本论文进行了以下的研究工作。
第一,在词嵌入模块,本论文提出了三种融合句法信息的方法。针对传统的基于句法的模型对句法分析器错误敏感的问题,本论文提出了面向压缩句法森林的编码方法。针对最新的基于Transformer的神经机器翻译系统,本论文提出了基于句法的位置编码方法,将句法结点的位置信息融入到词嵌入模块。针对句法树的线性化序列长度较长的缺点,本论文提出了基于神经句法距离的词嵌入模块增强方法。这三种方法能够从不同角度使用句法信息增强词嵌入模块。
第二,在注意力机制模块,本论文提出了三种利用句法信息增强注意力机制的方法。确定性注意力机制的引入,使得基于序列-序列模型的句法分析器可以利用关于句法分析的语言学信息来指导模型的学习。基于句法的自注意力机制使用句法信息来约束Transformer中的注意力机制的模块。基于压缩句法森林的注意力机制,使得解码器能够根据句法树的质量确定句法树的权值,从而能够使用质量更好的上下文向量进行解码。
第三,在隐含层的上方,通过增加一个额外的输出层的方式,本论文提出了一种使用句法信息提升隐含层质量的方法。在隐含层的上方额外增加的输出层可以预测出神经句法距离的序列。通过使用真实的神经句法距离来引导这个序列的学习,隐含层中就会融合句法信息,从而提升了隐含层的向量表示的质量。
第四,本论文对序列-序列模型注意力机制的根本原理进行了研究。以机器翻译中的词对齐任务作为目标,通过比较使用了两种不同的神经网络的序列-序列模型效果的差异,本论文对序列-序列模型中的注意力机制提供了新的认识。此外,本论文提出了一种全新的公理化注意力机制,这种注意力机制可以应用于任何形式的序列-序列模型,与神经网络的具体结构无关。这种注意力机制模块能够很好地学习到词对齐信息。
本论文的研究使得序列-序列模型能够充分地利用句法信息这一重要的语言学特征来提升模型的性能,这对于机器翻译、句法分析以及许多其他的自然语言处理任务都很有帮助。同时,本论文对注意力机制模型的探索能够为其他关于序列-序列模型的研究提供一些全新的认识。