论文部分内容阅读
在汉蒙统计机器翻译方法中最流行的是基于短语的汉蒙统计机器翻译方法,而该方法有它自己的缺点,即长距离调序能力较弱,另外,短语长度扩展到3个以上时,出现非常严重的数据稀疏问题,使得模型性能提高不是很大,为此,D.CHiang(蒋伟)提出基于层次短语的翻译模型试图解决这一问题。基于层次短语的统计机器翻译方法属于形式化句法的翻译方法,该方法的主要思想是短语本身包含了更小的短语,从而利用层次短语本身的规则来解决短语之间的长距离调序问题。本文采用基于短语的翻译模型和基于层次短语的翻译模型分别做了3、4、5和6元语言模型的汉蒙统计机器翻译实验。分析实验结果可以知道基于层次短语方法中4元语法语言模型的译文质量最好,其评测结果的NIST值为:5.9508,BLEU_SBP值为:0.2820,在基于短语方法中也是4元语言模型的译文质量最好,其评测结果的NIST值为5.9054,BLEU-SBP值为0.2689。在这两种机器翻译方法中,基于层次短语方法的评测结果比基于短语方法的评测结果在NIST值上提高了0.0454,在BLEU_SBP值上提高了0.0131。我们对汉蒙统计机器翻译译文进行研究发现存在以下几个问题,并对其进行了相应处理。第一,在译文中存在很多未登录汉语数词。数词是一类无穷词汇的开放性词,是无法用统计方法将文本中的所有数词进行翻译。为此,我们用基于规则的方法实现了汉蒙数词自动翻译程序,然后用该程序对译文进行后处理,对未登录数词进行翻译。在基于层次短语的4-gram语言模型的译文上进行未登录汉语数词后处理后,其评测结果NIST值为:5.9734,BLEU_SBP值为:0.2836。与基准实验相比其NIST值提高了0.0226,BLEU_SBP值提高了0.0016。第二,在译文中存在很多句尾以句中形式出现的蒙古语动词,对这种情况,我们实现了蒙古语动词自动生成程序,并在蒙古语动词词干基础上,生成了包含所有可能词形的蒙古语动词库。接着,利用蒙古语动词库,将译文中句尾以句中形式出现的错误动词用动词库中最可能正确的句尾形式动词替换。对基于层次短语的4-gram语言模型的译文上进行未登录汉语数词后处理,再进行纠正句尾错误形式蒙古语动词处理后,其评测结果的NIST值为:5.9764,BLEU_SBP值为:0.2841。对句尾错误形式动词进行后处理后,在NIST值和BLEU_SBP值上分别提高了0.003和0.0005。在以上研究基础上,本文利用东北大学机器翻译系统,实现了汉蒙统计机器翻译系统。