论文部分内容阅读
近年来,深度学习的研究热潮迅速渗透了自然语言处理研究的各个领域,其中也包括了机器翻译领域。深度学习给机器翻译带来了极大的改变,使之不再需要面对传统统计机器翻译中的特征设计等难题。特别地,使用了深度学习技术的神经机器翻译近几年在国内外都取得了突飞猛进的发展,获得了翻译效果上的全面提升,成为了机器翻译领域的核心技术。然而,神经机器翻译模型的效果高度依赖于平行语料的规模和质量。而在实际的许多语言和领域中,高质量的平行语料资源是十分有限的,因此制约了神经机器翻译模型的性能。针对以上问题,本文旨在探索如何使用较少的平行语料,同时充分利用其他比较容易获取的资源来帮助神经机器翻译模型的训练。具体来说,本文在有限的平行语料资源的背景下,以挖掘利用其他相关资源为核心,开展以下三个方面的研究工作:首先,从有效开发利用单语语料的角度出发,本文研究同时使用平行语料和单语语料进行模型训练的问题,提出了一种新的半监督神经机器翻译方法。该方法的主要思想是通过全概率公式来估计目标语言端单语语料的似然并同时最大化平行语料和单语语料的似然。进一步地,为了解决在计算全概率公式中的期望项时搜索空间过大的问题,采用了重要性采样的方法来避免枚举所有可能的源语言句子,并保证了目标函数的有效性。在英语-法语和德语-英语两个翻译任务上的实验结果证实了本文提出的方法相比于其他半监督神经机器翻译方法的优越性。然后,本文通过神经机器翻译模型的概率性质引入数据相关的正则化项,并将其应用到单语语料上以帮助神经机器翻译模型的训练。具体来说,全概率公式描述了边缘分布与条件分布之间的关系,即将翻译模型与语言模型通过概率等式联系起来。然而,在实际中使用平行语料训练的神经机器翻译模型无法保证在任意数据上满足全概率公式。因此,我们提出将全概率公式作为正则化项加入到模型的训练目标中,从而显式地强调模型之间的概率关系,以便使模型学习的过程朝着正确的方向进行。其中,加入的正则化项可以应用在包括单语语料的任何数据上,即数据相关的正则化。最后,在英语-法语和德语-英语两个翻译任务上的实验结果证实了该方法的有效性。最后,进一步考虑神经机器翻译中平行语料数据短缺的问题,本文针对完全没有平行语料的神经机器翻译场景(即零资源神经机器翻译)开展了研究。具体来说,本文借助额外的多模态语料来构建神经机器翻译系统,通过将零资源的多模态神经机器翻译任务转化为强化学习问题进行训练,并引入一种句子级别的监督信号,即通过图像来估计源语言句子和目标语言句子之间的相关性以评估目标语言句子的质量。在此基础上,本文设计了两种不同的奖励函数来指导模型的学习过程。最后,在三个数据集的三个翻译任务上的实验结果验证了提出的强化学习训练方法的有效性。