论文部分内容阅读
机器翻译(Machine Translation,MT)是指用计算机实现从一种语言到另一种语言的文本或者语音的自动翻译。在以知识经济为主要特征的当今社会中,日益频繁的国际交流和不断加快的全球化进程使得跨语言的信息交换总量急剧增加,不同国家和地区之间原本存在的自然语言屏障显得越发突出。机器翻译作为一门能够突破语言障碍的计算机技术,在经济发展和社会生活中发挥着越来越重要的作用。
迄今为止,机器翻译方法发展到现在,基于统计的机器翻译方法逐渐占据了主流地位。在基于统计的翻译方法中,基于短语的翻译模型仍然是研究的热点。但是,基于短语的翻译方法中有三个主要问题影响了它的发展:短语表的构建鲁棒性差;短语的连续性使之缺乏泛化能力;以及短语的重排序能力弱等。本论文的研究重点定位在为基于短语的统计机器翻译模型建立高性能的短语抽取方法和短语重排序模型,从而改善基于短语的统计机器翻译系统性能。
论文的主要工作归纳如下:
(1)提出了基于“松弛尺度”的短语抽取方法。短语表的构建是基于短语的统计翻译方法中的关键技术。目前以Och提出的短语对抽取方法应用最为广泛,但它过分依赖于词对齐的结果,因而只能抽取与词对齐完全相容的短语对。为此我们提出了一种基于“松弛尺度”的短语抽取方法,对那些与词对齐不能完全相容的短语对,结合词性标注信息和词典信息来判断是否进行抽取。由于该方法放松了“完全相容”的限制,能为更多的源语言短语找到对应的目标短语,挖掘出了平行语料中更多的翻译知识,从而有助于提高基于短语的统计机器翻译质量。
(2)提出了一种泛化的重排序模型,在括号转录文法(Bracketing TransductionGrammar,BTG)中引入非连续短语,从而增加了括号转录文法中短语的泛化能力。为了克服传统的基于短语的统计翻译模型中连续短语泛化能力差的弱点,我们提出了一种具有泛化能力的重排序模型(GREM),为括号转录文法引入非连续短语,增加了该文法短语的泛化能力,使用规则组合连续短语和非连续短语以便于获取尽可能多的连续的目标翻译。该模型不仅可以获取短语的局部和全局重排序规则,而且借助非连续短语进一步增强了短语的泛化能力。
(3)提出了一种基于多层短语的重排序策略。受层次翻译模型的启发,基于多层短语的重排序策略,根据不同短语的特性相应地使用不同的重排序模型。该策略将源语言长句分割为多层短语,在不同层次的短语上应用不同的重排序模型来获取最终的目标翻译。该模型很容易将风格不同的短语重排序模型(例如,分层短语重排序模型、BTG风格的重排序模型和单调翻译的重排序模型等)融合在一起,甚至能够整合更为复杂的重排序模型(例如,基于语言学句法的重排序模型),并将其控制在较小的范围内,而在更大的范围内则使用较为简单的重排序模型,从而达到平衡翻译性能和翻译速度的目的。
综上所述,本论文面向基于短语的统计翻译模型在短语表的构建、连续短语的泛化和重排序模型的设计等方面进行了深入的研究,提出的方法有效地改善了基于短语的统计机器翻译系统的性能,为进一步探索新的翻译方法奠定了良好的基础。