论文部分内容阅读
机器翻译,研究如何利用计算机自动地实现不同语言之间的相互转化,是自然语言处理的重要研究方向之一。近年来,随着深度神经网络技术的飞速发展,学术界和工业界的机器翻译研究也逐渐从传统的统计机器翻译向神经机器翻译转化。经过大规模、高质量的平行语料训练,神经机器翻译的性能在多个翻译任务中都达到了媲美人类手工翻译的水平。但除英语、汉语等少数语言外,世界上大多数语言对之间都不存在大规模的平行语料,属低资源语言,这给神经机器翻译和应用研究带来了新的课题。本文旨在探索神经机器翻译技术在低资源语言场景下的应用,为此分别研究了三种情况下汉语与“一带一路”部分国家语言和我国少数民族语言之间的机器翻译技术。本文的主要贡献包括:☆针对低资源语言神经机器翻译中的数据匮乏问题,本文在拥有少数平行语料的前提下,结合语料对齐和语法纠错等技术,提出了一种基于语义相关词替换策略的数据增强方法,通过自动增加平行语料的数量以达到提升神经机器翻译性能的目标。实验结果表明,该方法在蒙古语、藏语、维吾尔语和阿拉伯语与汉语之间的翻译任务中取得了很好的性能,最高有3.06个BLEU点的提升。☆针对一些语言对之间不存在平行语料的问题,本文分别利用两种语言的大规模单语数据,结合双语平行语料挖掘技术和跨语言词嵌入技术,提出了一种不依赖于任何平行语料的无监督神经机器翻译模型,本文实验的语言对包括:阿拉伯语、俄语、葡萄牙语、印度语与汉语之间的机器翻译任务。实验结果表明,该方法可以在一定程度上提升无监督神经机器翻译任务的性能,最高有5.19个BLEU点的提升。☆针对一些语言与汉语之间不存在平行语料,但与英语存在平行语料的情况,本文利用英语作为枢轴语言,结合对偶学习模型和模型融合思想,提出了一种基于枢轴语言(英语)的神经机器翻译模型,扩大了神经机器翻译的适用范围。实验结果表明,该方法在爱沙尼亚语、拉脱维亚语及罗马尼亚语与汉语之间的机器翻译任务中的性能有明显提升,相比于传统的基于语料翻译的方法,最多有16.31个BLEU点的提升。通过在“一带一路”沿线国家和我国少数民族语言选取的10种语言与汉语之间进行的机器翻译实验表明,我们提出的三种方法和目前的机器翻译方法相比较,均取得了不同程度的翻译性能的提升。同时,为了与当前相关技术做比较,我们还在一些资源丰富语言及近距离语言对中进行实验,也验证了本文提出方法的有效性。