论文部分内容阅读
自然语言表现出多种多样不同的单词顺序,而统计机器翻译所面临的主要挑战之一就是如何模拟这些顺序的差异。机器翻译被看做是由两个相关联的问题组成:预测译文中的单词和决定这些单词的顺序,也即翻译和调序。尽管许多研究者专注于改善翻译模型来提高译文质量,比如由最初的基于词的翻译模型,到基于短语的翻译模型和基于层次短语的翻译模型,再到基于句法的翻译模型,都递进式的改善着机器翻译的性能。目前机器翻译开始步入瓶颈期,随着大语种之间平行语料收集规模的不断扩大,一定程度的保障了译文的诚实度(译文是否覆盖了源句子的意思?),但是流利度(译文是否符合目标语言顺序?)面临着极大的挑战,尤其是面对资源缺乏的小语种翻译,比如本文所研究的维汉机器翻译。
在维汉机器翻译中,维吾尔语是一种形态学变化丰富的粘着性语言,也即通过在词干后附加词缀构成新词,同时维吾尔语和汉语具有不同的句法结构,维吾尔语是主宾谓结构而汉语是主谓宾结构。其次维吾尔语属于小语种,平行语料资源困乏,在相同规模语料所构建的维汉机器翻译系统中,结果译文中存在着严重的目标译文乱序现象,因此维汉机器翻译与中英等具有相同语序的大语种机器翻译相比,译文质量相差甚远。
针对上述维汉机器翻译所面临的挑战,本文通过认真学习钻研大语种机器翻译中的成熟理论和算法模型,同时认真分析维吾尔语自身的语法特性,提出了一种符合维汉机器翻译特点的调序模型,并进行了实验系统验证。
本文的主要贡献如下:
1.针对维汉机器翻译的特殊性,通过深入学习分析维吾尔语的语法特点,比如构词方式、维汉语序差异等,重点研究了如何在维汉机器翻译中既能体现维吾尔语的语法特点,又能兼顾当前翻译模型的优势。为此本文提出了一种基于维吾尔语短语的形式化定义,从而在短语级别上间接的体现维吾尔语词的特点,兼顾了维吾尔语语法特性,以便能够在维汉机器翻译中构建性能良好的调序模型。
2.当前维汉机器翻译系统所产生的译文中,存在着严重的乱序现象,导致维汉机器翻译系统翻译性能偏低。针对该问题,本文对当前机器翻译领域的主流调序方法进行深入学习,在此基础之上,借助统计机器翻译中短语表的获取方法,从维汉平行语料中获取调序实例,再按照维吾尔语短语的形式化定义对调序实例进行特征化,最后利用最大熵分类算法来估计调序特征的权重,使得对于维汉机器翻译具有更好的调序能力。
3.机器翻译的两大基本问题是翻译和调序。基本的翻译框架利用翻译模型来保证源语言和目标语言之间能够进行对应意义的翻译,而语言模型则是从诸多的翻译假设中选择一个最符合目标语言的顺序的翻译假设,从而得到符合目标语言顺序的译文。本文通过深入学习钻研目前机器翻译领域中性能较好的开源翻译引擎之一Moses,然后将本文所创建的维汉调序模型融入翻译引擎Moses之中,并与Moses中现有的调序模型进行实验对比,实验结果表明本文所构建的调序模型在维汉机器翻译中优于Moses中现有的调序模型,较好的改善了译文中的乱序现象。