论文部分内容阅读
机器翻译是将一种自然语言翻译成另一种自然语言。机器翻译的方法有很多种,主要包括基于规则的,基于实例的和基于统计的方法。统计机器翻译近些年来在机器翻译领域取得了较大的进展,由于在处理大规模语料时所具有的明显优势和在多次公开机器翻译评测中所取得的突出成绩,这种方法已成为国内外机器翻译研究的热点。
本文首先介绍了机器翻译的历史,主要方法及统计机器翻译的三个主要模块:语言模型,翻译模型,解码模型。在统计机器翻译方法中,解码模型的设计占有非常重要的位置,通常采用柱搜索算法来实现,其核心思想是在搜索过程中利用动态规划方法不断地扩展出所有可能的翻译状态,直到翻译完成。虽然实验证明柱搜索算法可以获得较好的的翻译结果,但它在翻译过程中不能充分利用带变量的短语。带变量短语具有较强的泛化能力,在实际的自然语言中也被广泛使用,对提高机器翻译的质量具有重要作用。因此,本文提出了一种递归柱搜索算法,以便在机器翻译的实践中有效地利用带变量短语。递归柱搜索算法的实质是将递归的思想引入柱搜索解码算法中,通过对不连续短语中的变量部分进行递归式分析,实现对带变量短语的翻译。
其次,本文利用已有的汉英双语语料库,设计并实现了一个汉英翻译系统,其中的主要工作包括:双语语料库的预处理和对齐训练,短语、短语模板的自动提取及概率计算,以及递归柱搜索算法的设计和实现。此外,本文还对递归柱搜索算法和柱搜索算法的翻译结果进行了对比实验和比较分析。
最后,本文讨论了机器翻译的人工评测和自动评测方法,并给出了所实现的汉英翻译系统在参加2007年度第三届中国统计机器翻译研讨会时的评测结果,其中包括BLEU和NIST得分。