论文部分内容阅读
随着语料库语言学的发展和计算机性能的提高,机器翻译的效果越来越好,并获得广泛的应用。研究人员不断探究机器翻译的新方法,从基于词的统计机器翻译方法,到基于短语的统计机器翻译方法,再到基于句法的机器翻译方法,机器翻译的性能也不断提高。基于短语的统计机器翻译方法将短语作为基本单位来翻译,充分利用到了短语内部的词序,对比基于词的统计机器翻译方法的效果有很大提高。但基于短语的统计机器翻译方法未充分利用句子的语言学信息,长距离调序效果不好。基于句法的统计机器翻译方法利用语言学意义上的短语作为基本单位,利用到了句子中的句法信息。但基于句法的统计机器翻译方法受句法分析准确率影响严重,同时对句法短语要求严格,这种严格的要求会损失掉一部分有益于机器翻译的非句法短语。鉴于基于短语的统计机器翻译和基于句法的统计机器翻译以上的不足,本文提出基于双语句法短语的统计机器翻译方法,利用双语句法短语来提高机器翻译的性能。首先,本文提出一种基于EM(Expectation-maximization)算法的双语句法短语抽取方法来抽取双语句法短语。然后将抽取到的双语句法短语通过以下三种方法应用到基于短语的统计机器翻译系统中:(1)将抽取到的双语句法短语作为双语句对加入到训练语料中,利用扩展后的训练语料重新训练翻译模型。(2)将抽取到的双语句法短语加入到短语表中,重新计算短语对各个特征的特征值。(3)增加一个句法短语特征到短语表中,即短语表中出现的短语是否为句法意义上的短语特征,若短语表中的短语为句法意义上的短语,则其句法短语特征为“1”否则其句法特征为“0”实验结果表明,双语句法短语能够提高机器翻译性能。三种方法都不同程度提高了译文的BLEU (Bilingual Evaluation Understudy)值。基线系统的BLEU值为0.2253;方法(1)的BLEU值为().2276;方法(2)的BLEU值为0.2294;方法(3)的BLEU值为0.2317。