论文部分内容阅读
机器翻详是自然语言处理中研究的一个重要课题。近年来统计机器翻译的研究占据了机器翻译研究的主流地位。而且统计机器翻译经历了从词到短语,从使用表层字符串信息到使用句法结构信息的演化。在这个过程中的每一步,都试图向翻译模型中纳入更多的上下文信息或重排序信息,以获得翻译质量的提升。基于层次短语的翻译模型是一种效果较好的翻译方法,它结合了基于短语的翻译模型和同步上下文无关文法的优点。本文研究了基于层次短语的翻译引擎的设计和实现方法,并对其规则冗余问题进行了探讨。
本文的主要工作归纳如下:
①设计实现了一个基于层次短语的统计机器翻译引擎。以汉英翻译为例,与普通的基于短语的机器翻译系统相比,该引擎的翻译质量有显著提升。尤其是在翻译需要长距离重排序的句子时获得了比较好的结果。
②提出了一种从双语对齐语料中获得层次短语的算法,该算法使用基于扫描线的方法,在对源语言训练句子的一次扫描过程当中得到层次短语规则,简单易于实现。而且实验表明该方法在计算时间方面具有良好的表现。
③基于层次短语的翻译系统面临的一个问题是训练得到的翻译规则的数量远超过普通的基于短语的翻译系统,从而导致了计算代价的攀升。本文探讨了基于层次短语的翻译系统中冗余规则的精简问题,提出了一种基于“重排序分割点”的约束方法,有效减少了系统中使用的规则数量,系统的训练时间和解码时间也随之大大减少。