论文部分内容阅读
目前,基于统计的方法在机器翻译领域内占据着主导地位,出现了多种不同类型的统计机器翻译系统,如基于短语的系统、基于层次短语的系统、基于句法的系统等。不同类型的系统都各具特点,在不同的领域和方面都表现出了良好的翻译性能,统计机器翻译技术正朝着多元化的方向发展。本文研究了多引擎统计机器翻译平台的实现技术,并针对其中词对齐技术存在的问题提出了解决方案。论文的主要工作归纳如下:(1)词对齐对称化方法的研究。我们针对现有词对齐对称化方法中存在的问题,提出了一种有效的改进方法。它首先在IBM模型获得的正反双向词对齐的基础上,确定出正反双向对齐不一致的部分。然后,对对齐不一致的部分进行重新对齐,并得到更好的对称化的词对齐结果。此外,我们还提出了利用大规模单语语料来强化对齐结果的方法。相比在统计机器翻译中广泛使用的基于启发信息的词对齐对称化方法,文本提出方法可以使统计机器翻译系统得到更高的翻译准确率。(2)多引擎统计机器翻译平台的构建。我们为统计机器翻译模型和算法的研究搭建了一个良好的多引擎统计机器翻译平台,同时也为面向工程性开发提供了一个转换平台。多引擎统计机器翻译平台实现了现今主流的三套统计机器翻译系统(基于短语的统计机器翻译系统,基于层次短语的统计机器翻译系统以及基于句法的统计机器翻译系统)。我们根据模块化的思想对翻译平台进行构建,首先根据翻译系统子功能的定义进行模块切分,并整合切分得到的各功能模块,最终得到模块化的翻译平台。从功能和层次的角度出发,我们共设计了六个模块,1)语料预处理模;2)词对齐模块;3)规则短语抽取模块;4)解码器模块;5)系统融合模块;6)后处理模块。最后,在搭建的统计机器翻译平台的基础上,我们进行多组对比实验,对各翻译引擎的性能进行了比较分析。综上所述,本文构建了基于多引擎的统计机器翻译研究平台,并在此基础上,针对词对齐对称化方法存在的问题,并提出了一种改进的重新对齐方法。