论文部分内容阅读
语言是知识和信息传播的重要载体,随着互联网、社会信息化和经济全球化的飞速发展,克服语言障碍变得越来越重要。因此,机器翻译(Machine Translation,MT)对于打破不同国家、地区和民族之间的语言障碍,促进不同民族人民之间的交流以及减轻人们学习外语的压力具有十分重要的现实意义。本文先简单介绍了传统的统计机器翻译(Statistical Machine Translation,SMT)和神经机器翻译(Neural Machine Translation,NMT),并就这些机器翻译模型的优缺点进行了分析。然后在此基础上引入并详细介绍了基于自注意力机制(Self-Attention Mechanism)和多头自注意力机制(Multi-Heads Self-Attention Mechanism)的神经机器翻译模型Transformer,通过具体的实验对其进行详细的分析发现了该机制存在的一些不足,并且针对这些不足,提出了相应的改进方案,具体内容如下:首先,通过对自注意力机制以及Transformer模型进行详细的理论分析和实验分析,发现其存在两个问题:其一是在Transformer模型中,多头自注意力网络中的注意力头是彼此独立地进行特征学习,这一定程度上会造成模型性能的瓶颈;其二是自注意力机制同时关注所有信号这一操作分散了注意力分布,使得模型无法很好地捕捉到局部信息。然后,针对上述第一个问题,本文提出了一种交互式多头自注意力网络,其通过一个线性投影连接了网络中的所有注意力头,使其能够分享学习到的信息,从而使得整个Transformer模型能更充分地进行特征学习,进而使得Transformer模型能够打破其性能瓶颈。针对第二个问题,本文提出了一种可学习的高斯偏差作为局部编码,并将其加入到原始的自注意力网络(Self-attention Networks,SANs)中,使改进的SANs能够有效地关注到局部信息。最后,针对上述两种改进方案,本文通过具体的实验验证了它们的有效性(以BLEU值为衡量标准)。并在验证第二种方案的过程中,发现局部编码虽然能够改善模型的性能,但其在一定程度上无法很好地融入到自注意力网络中。为此本文又提出了一种门控局部编码,通过门控机制让局部编码更好地融入自注意力网络中,并通过具体的实验验证了该方案的有效性。