论文部分内容阅读
机器翻译(Machine Translation,MT)是利用机器将一种自然语言转换为另一种自然语言的过程。藏英机器翻译相关技术的研究,对于继承和弘扬民族优秀文化,增进文化交流,寻求思想的沟通;服务国家一带一路战略;推动我国藏族地区社会、经济、教育和文化事业发展等有着十分重要的现实意义。机器翻译是计算语言学(Computational Linguistics)的一个分支,涉及计算机技术、数学、认知科学、语言学、信息论等多门学科的交叉和联系,是人工智能的终极目标之一。因此,基于短语的藏英统计机器翻译相关技术的研究能够促进藏语计算语言学的实质性发展,具有非常重要的科学研究价值和实际应用价值。在20世纪90年代,Waever思想的基础上,IBM公司的Peter Brown等人提出了统计机器翻译的数学模型,将机器翻译问题看成一个噪声信道问题。采用这种数学模型的机器翻译性能远远超越了传统的基于规则的机器翻译,从此基于统计的机器翻译成了机器翻译研究的热点,并提出了基于词的、基于短语的和基于句法的翻译模型等。在这些统计机器翻译模型中,基于短语的统计机器翻译模型以模型简单、鲁棒性高和翻译性能良好而占据主流地位,成为目前研究与应用的重点。本文的研究工作建立在基于短语的统计机器翻译模型基础上,对短语翻译模型的词对齐、短语抽取、调序模型、参数训练及解码等各项关键技术问题进行了初步的探索,并以西藏大学信息科学技术学院的基于短语的统计机器翻译系统作为实验平台,力图通过改善短语翻译模型的关键问题来提高基于短语的藏英统计机器翻译性能。具体而言,本文的研究内容主要包括以下几个方面:(1)词对齐方面:本文重点研究了IBM模型1-5的词对齐技术,并阐述了词对齐领域的相关研究工作,最后采用一种基于IBM模型4的判别式词对齐方法解决了藏英单向词对齐的不足。(2)短语对抽取方面:本文重点介绍了Och的连续短语对抽取技术,并阐述了短语对抽取领域的相关研究工作。根据藏语言本身的特点,提出一种改进的短语对抽取算法并在藏英词对齐语料上抽取了更多的短语对,但同时也抽取到了很多错误的短语对。为此,本文通过一种有效的过滤方法对藏英短语翻译概率表进行了过滤,过滤掉了短语翻译概率表中大部分错误的短语对,以确保藏英短语翻译模型的精确性。(3)调序模型方面:藏英两种语言的语序差异相对复杂。本文针对这个问题,深入研究了现代藏语短语结构,整理和归纳了29种现代藏语名词性短语、动词性短语和形容词性短语等三种主要的短语结构规则。在此基础上,分析和对比了藏英句法结构,总结了14种比较常见的藏英语序差异现象,并提出了一种基于句法信息的藏语句子重排序模型,以提高藏英机器翻译的性能。(4)模型参数训练方面:本文在对数线性模型的框架下重点研究了最小错误率训练方法的解码过程,实验中共用到了16种翻译特征,通过20次迭代训练,获得最优参数。