论文部分内容阅读
自上世纪90年代以来,统计机器翻译取得了飞速发展,并逐渐成为了机器翻译研究领域的核心内容。在此期间,学者们提出了多种统计机器翻译模型,包括基于词的、基于短语的、基于层次短语的和基于句法的统计机器翻译模型。而基于句法的统计机器翻译模型又可细分为基于树到串、串到树和树到树的统计机器翻译模型。在众多的统计机器翻译模型中,基于短语的统计机器翻译模型应用最广。因为它具有较高的翻译性能,并且在多种不同语言对之间的翻译任务中显示了较高的鲁棒性。基于短语的统计机器翻译模型和其它统计模型一样也是数据驱动的模型。它从双语语料中自动学习翻译知识,并最终用于翻译任务中。一个完整的基于短语的统计机器翻译系统往往包括数据预处理、词对齐、短语抽取、短语打分、解码器、参数优化器和数据后处理等重要模块。在这些模块中,短语抽取和短语打分模块从双语语料中自动获取短语翻译表作为翻译知识,参数优化器被用来优化模型参数,而解码器则被用来完成对源语言句子的翻译。系统的翻译性能通常用BLEU值作为评价指标。可以看到,在一个翻译系统中,解码器是真正用来完成翻译任务的核心模块。解码器的好坏一定程度上决定了系统的翻译性能和解码速度。到目前为止,学者们提出了各种可适用于短语统计机器翻译模型的解码算法。这包括基于栈的解码算法、Cocke-Younger-Kasami (CYK)解码算法和移进-归约解码算法等。考虑到翻译性能和解码速度,这些解码算法各有不同的优缺点。基于栈的解码算法和CYK解码算法一般具有较高的翻译性能,但解码速度较慢;而移进-归约解码算法往往可以达到较高的解码速度,但翻译性能较低。本文详细地介绍了以上几种解码算法,并经验性地比较了它们在翻译性能和解码速度上的表现。由于某些应用同时对翻译性能和解码速度的要求较高,而现有的解码算法往往不是速度不够快,就是性能不够好,本文为此提出了一种混合解码策略。该策略结合CYK解码算法和移进-归约解码算法,使用移进-归约解码算法解码用标点符号分隔的子句,并用CYK解码算法组合子句的翻译,从而生成最终的翻译结果。实验证明该方法能较好地在翻译性能和解码速度之间找到一个平衡,满足某些应用对这两方面的综合考虑。