论文部分内容阅读
目前,基于统计的方法在机器翻译领域内占据着主导地位,出现了多种不同类型的基于统计方法的机器翻译系统,如基于短语的系统、基于层次型短语的系统、基于句法的系统等。每种类型的系统各具特点,在不同的领域和方面都表现出了良好的翻译性能,因此,统计机器翻译已经步入了一个“百花齐放、百家争鸣”的时期。
本文的研究是基于多翻译系统融合框架下,针对汉英双语语料优化处理、多引擎平台建设以及短语模型优化等主要问题,进行深入细致的分析和研究,提出解决方案,并通过大量的实验进行对比验证。论文的主要工作归纳如下:
1.提出面向统计机器翻译的语料库建设规范与实现流程,并改进了基于内容的双语语料优化方法。
从语料搜集、语料初级加工、语料深入加工到语料应用,本文作者为统计机器翻译模型和算法研究搭建了一个良好的资源平台。在双语语料优化方面,提出了基于IBM词对齐模型的两层分割和过滤算法。第一层分割算法中的基于锚点的分割可以较准确的切分句子结构,正确率较高;基于无锚点的分割可以有效搜索到英文中的连接词作为切分锚点进行切割,从而减小句子长度。第二层过滤算法可以从句对表层(句子长度比)和内容(词汇匹配信息)进行过滤,有效剔除错误对齐的句对,很大程度减小切割后的新语料所引入的噪声。
2.提出多引擎统计机器翻译平台建设及实现流程,并对短语翻译系统的关键模块和平台中与具体系统无关的公共模块进行多种优化处理。
本文作者为统计机器翻译模型和算法研究搭建了一个良好的多引擎实验平台,同时也为面向工程性开发提供了一个转换平台。在基于短语翻译引擎的研究中,提出了基于变量替换的短语翻译系统,使用变量符号替换双语语料和测试集中的命名实体,从而有效降低了词汇量和短语表规模,同时使双语短语具有一定的泛化作用。在平台建设的关键公共模块中,主要描述了模型参数的最小错误率训练模块、重排序模块和后处理模块,并通过实验对各个模型的性能进行测试和比较。在基于短语翻译系统的模块优化中,重点对短语翻译模型进行优化。在短语抽取方面,首先对基于相容性抽取原则进行扩展,可以向短语两端的空对齐点进行扩展,增加了短语的规模,同时也提高了好短语在短语表中的比重;其次对短语概率计算方法和词汇化概率计算方法进行改进,提出在语料库中统计频率短语概率从而更接近真实分布;在词汇化概率计算方面,更侧重于对好坏短语通过概率进行区分,提出对双向词对齐概率取几何平均计算短语的词汇化权重;最后根据不同长度类型的短语在短语表和解码中的分布状况,提出基于3层词对齐组合方法的短语抽取策略。该策略可以保证在原来GDF方法词对齐召回率不损失的情况下,通过加入准确率更高的Intersect和GD方法抽取的短短语,优化短语表构成状况,提高BLEU得分。
3.提出基于位置向量预测的短语翻译系统调序模型。
基于短语的统计机器翻译系统的主要问题是短语重排序。本文在对多种面向短语翻译方法的调序模型进行深入分析和研究的基础上,提出基于短语相对位置和方向关系的位置向量预测模型。短语之间的相对位置关系可以描述为短语与其前接短语、后接短语之间的相对距离;方向关系可以描述为短语与其前接短语、后接短语之间是单调、交换还是非连续关系。在解码过程中,下一个要扩展的短语可以通过位置、方向双重概率进行约束。实验验证了该调序模型相比于单纯的位置调序模型和方向调序模型在系统翻译性能方面有更显著的提高。
4.提出基于混淆网络解码的多特征系统融合框架。
该框架是基于词级进行系统融合的一种方法,是基于MBR解码和混淆网络解码的多特征融合框架。首先使用MBR解码器以BLEU评价准则作为损失函数,从多个系统的N-best中选择一个贝叶斯风险损失最小的翻译假设作为对齐参考;然后利用改进的对齐方法-GIZA-TER对齐准则将其他所有翻译假设对齐到该对齐参考,构造基于词级的混淆网络。解码模型采用对数线性模型,以词的后验概率、语言模型、词性语言模型和句子长度惩罚作为特征,使用柱搜索技术对混淆网络进行最优路径搜索。实验表明,本文作者提出的多系统融合框架显著提高了翻译系统性能。
综上所述,本论文在双语语料库建设和优化、多引擎平台的建设和优化、基于短语模型的关键模块改进和优化、基于混淆网络解码的多系统融合等方面做了大量的实验、进行了深入的研究,并提出了有效的解决方案,有效地改进了现有实验系统的性能,为进一步探索新的翻译方法奠定了良好的基础。