论文部分内容阅读
机器翻译的研究已经有几十年的历史了。目前主流的研究方向是基于统计的机器翻译模型。统计翻译模型从基于词到成熟的基于短语的翻译模型,直至到形式化文法和基于句法的翻译模型,而且加入了很多的特征。因此机器翻译进入了一个“百花齐放,百家争鸣”的时代。但是不同的模型有不同的重排序能力,不同的解码方法有不同的搜索空间。针对多种机器翻译的翻译结果,我们是否能够融合多种翻译结果来达到“取长补短”,这就是系统融合。系统融合在近几年才取得了标志性的性能提高,但关于系统融合的若干关键问题的研究还不完善。按照融合的粒度来分,可以分为基于句子,基于短语,和基于词的系统融合;按照融合的阶段来说,可以分为后处理阶段和解码阶段的系统融合。本文主要是在两种现今流行的方法中研究:一个是后处理阶段的基于词的系统融合,另一个是解码阶段的系统融合。本文对系统融合中出现的若干关键问题进行了研究。其中包含骨架翻译的选择,对齐方法,在混淆网络中的调序,模型融合后的解码方法等方面。基于这些问题,本文旨在提高系统融合的性能,针于基于词的系统融合提出了增强的对齐方法,重排序模型以及新的解码框架本;针对模型融合的解码方法进行了深入了研究。本文具体研究内容包括以下几个方面:1.研究了在基于词一级系统融合中混淆网络的构建中加入了增量的策略。我们也说明增量对齐方法能够有效的改进对齐质量;由于在“翻译错误率”(TER)增量对齐中,假设翻译的顺序影响了增量对齐的结果,我们做了实验性的比较;同时为了解决TER算法只匹配同一词的缺点,我们引入取词根和基于WordNet的词义消歧方法来进行候选翻译和假设翻译中词语的对齐;2.在系统融合的训练过程中,混淆网络的骨架翻译的选择决定了假设翻译的语序,传统的选择方法是选择具有MBR特性的候选翻译作为对齐的骨架,这就造成了对于混淆网络只考虑到一种语序形式。由于我们融合的机器翻译结果是来自于多种不同文法或是方法,每种翻译结果有着不同的语序,为了使得每种翻译结果的语序都被考虑到,我们构建了一个超级混淆网络,并用两种方法来验证方法的有效性:一种在超级混淆网络中的加入基于混淆网络的特征;另一种是在解码中对多个混淆网络生成的候选翻译翻译进行一致性重打分。实验结果也验证了两种方法的有效性。3.研究了利用超图进行系统融合的训练和解码。为了计算训练阶段的量值方便,我们在训练的过程引入了二阶半环框架来计算梯度。在解码阶段为了使得原有Cube-Pruning剪枝的框架被保留下来,我们使用Cube Growing,采用了三个阶段的训练解码,第一个阶段是使用Cube Growing进行普通解码;第二个阶段使用n-gram特征来解决伪歧义和一致性解码的问题;第三个阶段对于两个系统融合模型进行融合,三个阶段取得了一定的效果。由于更大的搜索空间和更好整合语言模型特征,得到了比较好的结果。4.由于每种文法表现能力不同,为了使得每种文法能够取长补短,我们对于层次短语文法和括号转录文法进行在机器翻译的解码框架下进行融合。不同于系统融合方法,解码框架的融合考虑到了解码过程生成的侯选翻译的互相影响,并不是对于生成翻译结果进行重新训练和解码,这样减少了整个过程的时间,同时性能也好于单个系统生成的翻译结果。综上所述,本文基本上给出了系统融合中的一整套解决方案,有后处理和模型间融合的模型研究,有这些过程的训练和解码研究。为自然语言处理中的难题之一——系统融合,在新的研究思路上进行了初步探索。