论文部分内容阅读
机器翻译是自然语言处理领域重要的研究方向,近年来随着深度学习的飞速发展,神经机器翻译逐渐成为研究和应用的主流翻译方法,然而其严重依赖大规模平行语料才能获得较好翻译结果的弊端依然存在,因此对诸如汉蒙等低资源语言对的翻译效果不佳。单语语料相较于平行语料具有数量多、易获得等特点,在平行语料不足的低资源机器翻译中有着举足轻重的作用,但目前单语语料库还没有很好地应用在神经机器翻译中。本文针对汉蒙平行语料资源不足和蒙古语形态复杂多变等情况,研究了单语语料库作为平行语料库的补充在低资源汉蒙神经机器翻译中的应用,提出了多种基于单语语料库的汉蒙神经机器翻译方法。本文的主要工作分述如下:(1)提出了一种结合词向量对齐和语言建模的汉蒙神经机器翻译方法。首先利用汉语和蒙语单语语料库分别训练二者的词向量,然后使用对齐的汉蒙词向量来初始化模型的词向量层,同时模型在进行翻译的过程中使用单语语料进行语言建模的训练,从而增强模型的编码解码能力。(2)提出了一种基于字符级语言建模的汉蒙神经机器翻译方法。神经机器翻译难以处理未登录词和低频词,因此本文设计了一种基于字符级语言建模的翻译方法,将汉语词和蒙古语词拆分成字或字符,使得模型能够处理语料中未出现的词或低频词。此外模型使用对偶结构引入了语言建模,从而可以在翻译的过程中进行字符级的语言建模训练,使翻译出的结果更符合语法更通顺。(3)提出了一种结合权重共享和字符级语言模型预训练的汉蒙神经机器翻译方法。为了更好地利用语言之间的共性,本文将模型编码器的前几层参数进行共享,同时加入基于字符感知的语言模型预训练,使用预训练的模型来对翻译模型进行初始化,最后再进行翻译的训练,同时在翻译的前半段加入字符级语言建模操作来微调翻译模型,进而提高翻译的性能。本文研究了单语语料库在汉蒙神经机器翻译中的应用,提出了结合词向量对齐和语言建模、基于字符级语言建模、结合权重共享和字符级语言模型预训练的汉蒙神经机器翻译方法。实验结果证明,本文提出的三种基于单语语料库的汉蒙神经机器翻译模型都可以显著地提升汉蒙神经机器翻译的效果。