论文部分内容阅读
越南位于中南半岛、毗邻我国广西、云南两省,在政治、经济等方面都是我国的重要合作伙伴。在“一带一路”战略下,我国与越南的合作空间巨大,两国当前越来越紧密的经济、文化交流对于两国语言的机器翻译技术提出了越来越迫切的需求。然而,已有的机器翻译技术对于平行语料的需求与语料的稀缺性成为了阻碍这一技术发展的主要矛盾。近年来神经机器翻译技术已经在多种语言对上取得了超越统计机器翻译的性能,并且在译文流畅度等方面取得了空前的成功,但这一技术同样需要大量的平行语料作为训练数据。同时,在过去的统计机器翻译研究过程中的成果也不可忽视。因此,研究如何将统计机器翻译中的翻译知识融合到神经机器翻译框架中成为了当前的研究热点。基于此,本文将上下文约束和语言特性应用于词对齐建模,研究基于双向LSTM的词对齐模型,并进一步研究如何将翻译知识融合到神经机器翻译模型中,主要完成了以下研究工作:(1)基于双向LSTM和语言特性融合的汉越词对齐方法词对齐是多种机器翻译模型(如短语翻译模型、句法翻译模型)的基础,是短语对齐、句法树对齐的依据,是统计机器翻译方法中的重要组成部分。本文使用双向LSTM对词对齐进行建模,引入对齐位置的上下文信息;在此基础上融合汉语-越南语语言差异,基于语言特性约束词对齐关系,通过监督学习调整模型参数,从而获得性能更优的汉越自动词对齐方法。(2)融合词汇翻译概率的汉越神经机器翻译方法神经机器翻译方法的参数解释性差,很难融合词对齐、词典等外部翻译知识;同时,虽然其内部的注意力机制在某种程度上可以反映源语言词语和目标语言词语的对应关系,但这种关系并不具有显式约束。本文提出了一种在神经机器翻译中融合词汇翻译概率的方法。首先使用一个记忆神经网络保存词对齐信息,完成离散特征到连续特征的转换。然后在神经机器翻译的解码阶段,根据目标语言词语及其上下文信息计算目标语言词语与每个源语言词语的对齐概率。最后将这个对齐概率与注意力机制进行融合,从而完成解码阶段目标语言词语的选择。(3)融合翻译知识的汉越神经机器翻译系统该系统包括机器翻译模块、web后端服务模块、web前端服务模块。其中翻译模型的实现基于Google的代码并做了大量改进,主要包括对传统注意力机制的修改,将词汇翻译概率融合到神经机器翻译框架中。该系统对于将翻译知识与神经机器翻译融合的研究具有重要的支撑作用。