论文部分内容阅读
机器翻译(Machine Translation: MT)就是用计算机将一种自然语言翻译为另一种自然语言。经过七十多年的发展,目前机器翻译已经深入到各个子领域的研究。在翻译方法的研究上,基于统计的机器翻译方法逐渐占据了统治地位;而对于翻译对象,领域术语、命名实体(Named Entities: NE)等主要事实信息的翻译,正在成为研究者关注的焦点。在人名、地名的翻译任务利用音译技术基本完成之后,机构名称、地址等非音译信息的翻译成为命名实体翻译探索的重点。由于现有的机构名称及地址的汉英双语语料极其匮乏,导致当前主流的基于统计的机器翻译技术无法发挥优势。针对上述情况,本文提出使用基于规则的中文地址汉英翻译方法和基于多层次匹配的中文机构名称汉英翻译方法来解决中文地址和机构名称的汉英翻译任务,并对翻译知识的自动获取方法进行了深入研究。具体地讲,本文从如下几个方面进行了研究:1.应用当前主流的统计翻译工具pharaoh对机构名称的翻译性能进行分析,进而提出一种基于分字的机构名称统计翻译方法,并将基于分字和分词的翻译短语进行融合。两种方法使得译文的BLEU评分分别提高了8.1%和20%。2.探索了利用汉英双语地址对获取中文地址汉英翻译规则的途径,提出了基于等价翻译短语的中文地址汉英翻译规则获取方案,给出等价翻译短语的自动获取算法和基于转换错误驱动的翻译规则的自动学习算法。3.研究了中文机构名称汉英翻译知识的多层次获取方法。机构名称汉英翻译任务要求翻译出来的译文尽量符合人们以往的翻译习惯,而当前可用的双语资源十分有限。在这种情况下,本文研究了机构名称翻译知识的多层次获取方法,该方法使得有限的翻译知识得到了充分的利用。4.在命名实体汉英双语语料匮乏的情况下,为了解决中文机构名称及地址的汉英翻译任务,本文设计并实现了基于规则的中文地址汉英翻译系统和基于多级匹配的中文机构名称汉英翻译系统。实验表明,在仅有几千条标准汉英双语语料的情况下,两个系统开放测试的BLEU评分分别为0.7167和0.5531,基本达到了实用化的翻译水平。