论文部分内容阅读
随着社会经济的不断发展和科学技术的不断进步,多语言之间的翻译需求不断增大,机器翻译已经成为人们解决大量翻译任务的常用方法。近年来,神经机器翻译凭借其出色的翻译性能成为机器翻译的主流方法。神经机器翻译模型的训练需要大量的平行语料,语料的领域、质量、数量对模型性能影响较大,而实际研究背景中,数据资源短缺是一个普遍存在的问题,平行语料的领域和语言类别都较为稀少。为了解决这一问题,本文提出若干低资源条件下的神经机器翻译研究,旨在提高低资源条件下译文的翻译质量。(1)针对领域低资源的翻译问题,本文提出基于领域特征的神经机器翻译领域适应方法。在领域低资源的问题中,通常外领域的语料资源丰富,内领域的语料资源稀缺,利用资源丰富领域的语料能帮助资源稀缺的领域提升翻译质量。方法首先利用多层感知器训练领域判别器,使其具有自动判断句子领域类别的能力;其次修改模型目标函数,联合生成器和领域判别器,分别训练特征敏感网络和特征不敏感网络;最后使用集成学习的方法融合生成器、特征敏感网络、特征不敏感网络完成翻译预测。方法在中英广播对话领域和英德口语领域进行实验,结果表明,该方法能充分学习领域特征,提升低资源领域译文质量。(2)针对平行语料低资源的翻译问题,本文提出利用双语词典的低资源神经机器翻译方法。在仅有单语语料资源情况下,方法提出将单语语料通过双语词典替换,使得多个单语语料只包含一种语言,达到了共享词嵌入向量的效果,再进行翻译模型训练。方法分别使用真实双语词典和规约双语词典构建训练语料,其中规约双语词典由向量相似度得到,然后进行降噪自编码器和迭代回翻训练得到翻译模型。方法在相近和不相近语言对翻译任务上进行测试,实验结果表明,使用双语词典和单语语料能有效提升低资源翻译质量。(3)为了提升低资源翻译模型性能,本文研究神经机器翻译中的系统融合方法。集成学习是机器学习中提高模型预测能力的常用方法,在机器翻译中一般被应用在解码阶段。本文将集成学习技术应用于模型训练过程,提出5种特征融合方法分别应用于N-1融合系统、N-N融合系统、1-N融合系统中。融合系统分别基于循环神经网络和注意力网络建模,并在汉语到英语翻译任务上测试了本文系统融合方法效果。实验结果表明,本文的系统融合方法能有效提升低资源翻译模型性能。本文针对机器翻译中领域低资源和平行语料低资源的问题,分别提出学习领域特征和利用双语词典、单语语料的方法来提升低资源翻译质量,最后研究神经机器翻译中的系统融合方法来提升模型的综合性能。