论文部分内容阅读
统计机器翻译是目前主流的机器翻译方法,它以统计模型为基础,可以高效地获取翻译知识、快速地开发性能优良的翻译系统。但是当领域发生变化时,利用现有的统计机器翻译方法难以开发出令人满意的机器翻译系统。一方面,在中英科技文献领域应用统计机器翻译时,领域变化带来的中文分词精度的下降会给获取高质量翻译知识带来很大障碍;另一方面,新领域往往引入大量的特有词汇,造成翻译系统已有的翻译知识无法对其进行翻译。针对领域变化引起的问题,本文重点研究面向统计机器翻译的领域自适应方法,以提高翻译知识的质量和覆盖率。这些方法包括面向统计机器翻译的中文分词的领域自适应方法和复述技术的应用方法,都以提高统计机器翻译系统的领域自适应能力为目标。本文主要包括以下两方面工作:(1)针对领域变化引起的中文分词精度下降问题,本文提出了利用大规模生语料中n-gram统计特征的中文分词方法和基于平行语料引导的中文分词方法。在此基础上,本文提出了基于线性模型的多特征融合方法,将不同方法的分词结果进行融合,为不同领域中汉外统计机器翻译系统的开发提供了解决方案。实验结果表明,融合多种分词结果的方法在分词精度和统计机器翻译系统的翻译性能上均取得了提升。(2)对于新领域特有词汇降低统计机器翻译性能的问题,最直接的做法是增加短语表规模,提高翻译知识对新领域词汇的覆盖率,进而增强统计机器翻译的领域适应能力。大规模、高质量的平行语料库难以获得,直接扩充短语表规模的方法受到限制。针对此问题,本文提出了引入复述技术的统计机器翻译系统(复述是同语言同语义的不同表达方式)。其基本思想是:由于自然语言表达多样性的存在,短语表对语义的覆盖率一般高于对短语现象的覆盖率;通过将新领域特有词汇转化为短语表熟知的复述形式,统计机器翻译系统可以为其寻得合适的译文。具体实现中,本文利用第三种语言获取带有概率的复述短语表,用格图表示待翻译句子的多种复述形式,改进机器翻译解码算法使之能够处理格图形式的输入。实验结果表明,在不同规模的数据集上,引入复述特征的翻译系统性能普遍优于传统的统计机器翻译系统,并且系统鲁棒性较好。综上所述,为了提升统计机器翻译系统的领域适应能力,本文在翻译知识获取阶段和翻译知识应用阶段进行了改进。实验结果表明本文所提方法增强了统计机器翻译领域适应能力,带来了翻译性能的提升。