论文部分内容阅读
国内的机器翻译研究集中在汉语和英语互译上,针对少数民族语言的机器翻译以蒙古语居多,对于维语的机器翻译仍处于起步阶段。对于新疆这样一个多民族聚居的地区,以汉族和维吾尔族居多。随着信息化时代的到来,各民族之间的交流日趋频繁,而语言的差异为信息交流带来了障碍,所以民族语言之间的翻译对于促进民族间的交流具有重要意义。
在统计机器翻译中,基于短语的统计机器翻译方法是一种经典的方法。根据汉维机器翻译研究现状,利用现有技术和工具构建了基于短语的汉维统计机器翻译平台,将其作为基线系统,对汉维机器翻译进行初探。汉维机器翻译中存在的主要问题有以下三个:(1)缺乏大规模汉维平行语料库。(2)汉语和维语的语序差异较大。(3)汉语和维语的形态差异较大。此外,由于基于短语的方法在长距离重排序能力上表现欠佳,并且不包含句法和形态信息等语言学知识。以上问题导致在汉语到维语的统计机器翻译中,未登录词较多,且产生的维语译文出现语序混乱现象。
针对上述问题,本文讨论将汉语句法信息和维语形态学信息加入到汉语到维语的统计机器翻译模型构造中,以解决维语译文的语序问题和降低词形错误率:
1、对汉语句子中的短语进行调序,使其与维语句法相近。在对汉语和维语的语序进行系统研究的基础上,归纳了一系列汉语句法重排序规则。训练前,对源语言句子进行句法分析,对分析得到汉语短语结构树运用本文提出的重排序规则进行调序,使汉语和维语的在语序上相近。
2、使用维语的形态信息,使之参与模型的训练。对汉语和维语的形态学差异进行了分析,在系统地总结了维语形态学特征的基础上,研究维语形态特征的提取方法,以及在引入维语形态特征后语料库的形式。
针对汉语和维语的句法差异和形态学差异,在汉语到维语的统计机器翻译中,对源语言端进行句法调序,对目标语言端进行形态分析,将句法信息和形态学信息以“因素”的形式引入到对数线性模型中。实验证明,本文提出的方法能够获得较好的系统性能,较基线系统有实质性的提高。