论文部分内容阅读
神经机器翻译(NMT)系统通常利用大量的双语平行语料来进行训练,然后采用逐句的方式单独对每一句话进行翻译。然而,在篇章中,多个句子之间通常有各种连接和依赖关系,进而形成一个意义完整的文档。忽略这样的句子连接和依赖关系,可能使得句子的翻译模糊或者与邻近句子的翻译不一致,为连贯一致的源文本产生不连贯的目标文本。最近的研究发现,当NMT翻译长句时翻译质量显著下降。而从某个角度来看,复杂的长句相当于短的篇章,所以NMT处理这样的长句时性能下降明显。鉴于NMT存在上述缺陷,本文开展了文档级神经机器翻译模型的研究。本文主要工作包括:(1)汉语的长句子有时翻译为英语的篇章,随着句子长度增加,大多数NMT系统翻译质量呈现下降趋。在本文中我们提出了自动长句分割模型来处理这个问题,分割模型包含两个子模型:切分模型和重新排序模型。使用该方法来检测句子中的最佳分割点序列,将长句分割为多个子句。NMT系统对每个子句进行翻译,然后将翻译后的子句译文直接连接起来,得到最终的译文。在NIST中英翻译任务上,和基准的NMT相比,我们的分割方法在翻译长句方面取得了实质性的提升。(2)NMT系统一次翻译一个句子,忽略了相邻句子间的关系。我们期望使用同一文档中相邻句子的信息来帮助NMT翻译当前语句,因此我们提出了一个句间门控模型。它使用相同的编码器对两个相邻的句子进行编码,并控制从前一个句子到NMT解码器的信息量。通过这种方式,句间门控模型可以捕捉句子之间的关系并使用捕获的信息来帮助文档级别的神经机器翻译。在NIST中英翻译任务中,我们的实验结果表明所提出的句间门控模型实现了翻译质量的显著提升。(3)NMT系统以传统的逐句方式翻译文本,忽略了篇章提供的文档上下文信息,如句子间的联系和依赖关系,文档主题信息等。为了解决这个问题,我们提出了一种基于缓存的文档级神经机器翻译方法。该方法利用缓存模型捕获最近翻译的句子和整个文档中的上下文信息,进而帮助翻译系统翻译文档。特别地,我们探索了两种类型的缓存:一个动态缓存,它存储来自前面句子的最佳翻译假设的单词;一个主题缓存,它维护一组与目标文本语义相关的目标端主题词。在此基础上,我们构建了一个新的基于缓存的神经模型,将缓存模型融入神经机器翻译系统。在NIST中英翻译任务中,提出的缓存模型显著的提升了NMT系统的译文质量以及一致性。