论文部分内容阅读
近年来,层次短语翻译系统逐渐成为实用的统计翻译系统之一。通过引入形式化的句法结构,层次短语翻译系统能够有效处理短语翻译系统所面临的长距离调序、规则泛化等问题。由于层次短语翻译模型在训练时不需要引入任何句法知识,因此特别适合构建面向大规模数据的统计翻译系统。随着计算机技术的不断发展以及翻译语料规模的逐渐增加,构建面向大规模双语语料的层次短语翻译系统不仅成为研究的热点,而且具有一定的实用意义。 然而,在构建面向大规模双语语料的层次短语翻译系统过程中仍然面临着不少问题:1)训练层次短语翻译模型的互联网语料包含较多噪声信息,直接使用这种语料有时容易导致翻译性能降低。2)启发式的层次短语模型训练方法生成较多冗余和错误的规则。这些规则不仅增加了系统存储的压力,而且容易产生错误译文。3)层次短语规则之间缺乏一定的上下文信息,在句子结构复杂的情况下很难得出正确的翻译结果。4)层次短语规则在泛化时缺乏一定的语言学约束,产生较多不符合实际语法的翻译规则,造成系统解码路径的选择困难。5)传统语言模型查询效率较低,难以满足大规模层次短语翻译系统对模型查询的需求。6)随着双语语料的增加,层次短语翻译系统的搜索空间逐渐扩大,因此对系统的准确性和实时性都提出更高的要求。 为了解决上述问题,本论文分别从平行语料获取、翻译模型优化、语言模型优化以及解码器优化角度出发,重点研究面向大规模双语语料的层次短语翻译系统优化方法。论文的主要研究内容包括如下部分: 1、提出基于强制解码的平行语料获取和翻译模型训练优化方法 本文采用强制解码的方法从包含噪声信息的双语语料中获得对齐质量较好的平行语料。该方法可以直接从双语句子中定位平行片段,极大地扩展了双语语料的获取范围。其次,针对启发式层次短语模型训练方法存在的规则冗余和概率估计问题,本文提出采用强制解码的方法对层次短语模型进行训练,从而得到性能较好的翻译模型。 2、提出基于规则嵌套的翻译模型优化方法 层次短语翻译规则之间缺乏一定的上下文信息,造成翻译解码时无法对错误译文进行有效判断。本文提出一种规则嵌套模型描述源语言规则之间的上下文关系。此外,我们引入最小层次短语规则以减少翻译模型的规模,同时有效避免统计规则嵌套模型时的数据稀疏问题。实验结果显示,融合层次短语规则嵌套模型可以显著提高系统的翻译性能。 3、提出基于名词性短语的翻译模型优化方法 本文提出一种基于迭代的名词性短语获取方法,并对层次短语翻译规则进行优化。一方面通过约束翻译规则中的非终结符为名词性短语,增加翻译规则的描述能力;另一方面通过约束翻译解码路径,对不符合名词性约束的路径进行惩罚。实验结果显示,采用该方法能够得到质量较高的名词性短语,同时显著提高层次短语翻译系统的性能。 4、提出基于加权有限状态机的语言模型优化方法 本文提出一种基于加权有限状态机的N元语言模型快速查询方法。该方法把语言模型的查询过程看作查询状态在有限状态机上的状态转移过程,从而有效减少语言模型查询的冗余操作,实现模型查询效率的显著提升。此外,本文通过对查询状态进行缓存的方法,进一步提高了语言模型查询效率。实验结果表明,该方法可以使传统语言模型的查询效率提高近3倍。 5、设计完成层次短语在线翻译系统和并行翻译系统 本文根据层次短语翻译模型的基本原理,设计完成在线层次短语统计翻译系统。通过对层次短语翻译系统中的翻译模型、语言模型以及解码器等模块进行优化,从而满足系统对翻译质量和速度的要求。在此基础上,我们设计实现了面向大规模双语语料的并行层次短语翻译系统,解决由于计算机硬件资源的约束,导致搜索空间无法任意扩展的情况。 综上所述,本论文针对面向大规模双语语料的层次短语翻译系统存在的主要问题,从双语语料获取、翻译模型优化以及语言模型优化等角度进行了深入研究,从而显著提高了层次短语翻译系统翻译质量和解码效率。本文最后设计实现了面向大规模双语语料的层次短语串行翻译系统和并行翻译系统,为进一步研究提高层次短语翻译系统性能奠定良好的基础。