论文部分内容阅读
机器翻译是自然语言处理中的核心任务。当前的神经机器翻译模型主要是基于递归神经网络和卷积神经网络的深度网络模型,但仅仅使用递归神经网络和卷积神经网络处理文本都具有一定的局限性。近几年,自注意力机制在自然语言处理中的多个领域中展现出优越的性能。因此,文中将自注意力机制应用于机器翻译,针对机器翻译任务的特点,对传统的自注意力机制进行改进,设计新模型。论文的研究内容和取得的成果主要如下:1.在机器翻译任务中,自注意力机制由于高度可并行化计算的能力显著减少了模型的训练时间,并且可以有效地捕捉到上下文中所有单词之间的语义相关度而受到了广泛的关注。然而,不同于循环神经网络,自注意力机制的高效源于忽略上下文单词之间的位置结构信息。为了使模型能够利用单词之间的位置信息,基于自注意力机制的机器翻译模型Transformer使用正余弦位置编码方式表示单词的绝对位置信息,然而,这种方法虽然能够反应出相对距离,但却缺乏方向性。因此,文中基于对数位置表示方法,并与自注意力机制相结合,提出一种机器翻译新模型。该模型不仅继承了自注意力机制的高效性,还可以保留单词之间的距离信息与方向性信息。研究表明,与传统的自注意力机制模型以及其它模型相比,文中所提新模型能够显著地提高机器翻译的准确性。2.在机器翻译领域,近年来许多将自注意力机制和递归神经网络结合的新模型被提出,研究表明这些复合模型在机器翻译任务上的性能超越了单独的自注意力机制或递归神经网络。虽然通过引入更多参数加强了模型获取结构信息的能力,但过多参数产生的冗余信息并不一定能够加强机器翻译系统的性能,甚至在一定程度上会影响翻译效率。因此,文中引入更加轻量级的门控循环单元网络,与自注意力机制相结合,设计更加高效的机器翻译模型。模型采用“残差连接”机制将两种编码器的结果相结合,“残差连接”机制可以保留底层的结构信息并传递给高层编码器,解决梯度爆炸和消失问题。实验结果表明,底层的门控循环单元网络有效地保存了文本中的层次结构信息,并与自注意力机制的语义分析有着紧密集合。相较于其它模型,该模型对于自然语言和人工语言的处理具有一定优势。3.最近研究表明,自注意力机制通常专注于独立的单词,却忽略连续的短语形式,而短语被认为在机器翻译中是必不可少的形式。有关机器翻译研究现状的工作表明,将基本单元从单词扩展到短语可以对译文质量产生实质性的提高,这表明可以通过对短语显式地建模来提高神经机器翻译系统的性能。而在以往的研究中,没有工作明确将短语建模和层次结构建模相结合。因此,文中提出粒度细化,然后通过限制注意力范围来增强模型获取局部信息的能力,因此本文提出的方法参数更少,更加轻量级,对于计算能力的要求也更低。自注意力机制通常由多层编码器-解码器递归组成,其中高层倾向于学习语义信息,而低层则倾向于捕获结构信息和词汇信息。因此,文中仅将局部性建模应用于底层,即底层自注意力层拥有距离感知和提取局部信息的能力,而高层则捕获与距离无关的全局语义信息。实验结果表明,文中提出的新模型能够显著改善神经机器翻译模型的性能。