论文部分内容阅读
统计机器翻译(Statistical Machine Translation,简写SMT)是机器翻译中的主流,也是当前非限定领域机器翻译中性能较高的一种。其基本思想是通过对大规模的平行语料进行统计分析,构建统计翻译系统模型,利用此模型进行翻译。
基于词的统计是最早的统计机器翻译系统方法,但是却因为建模单元过小而受到一定限制。基于最大熵模型的区分性训练方法的提出使基于词的机器翻译过渡到基于短语的翻译,并正在融合句法信息,以进一步提高翻译的精确性。
不论是基于词的统计模型还是基于短语统计模型本质上都是词汇化的。对于形态丰富的语言,由于其语言本身词法,语法变化繁多。词干后附加各种词缀及附加成分来表达词法的或语法上的意义。对于汉蒙统计机器翻译,两种语言的特征差异较大,从而产生严重的信息不对称,歧义,数据稀疏等问题。
形态丰富语言的词切分是对其进行信息处理的重要基础。近年来各种新模型、新方法的提出大大提高了切分质量。而应用形态信息的机器翻译方法并没有太多发展。不同于传统的严格基于语言学上的形态切分,我们主要针对汉蒙统计机器翻译系统中形态信息的应用,将基于短语的统计机器翻译模型与形态切分融合。我们的方法考虑了源语言的目标语言互译信息,提出了有针对性的目标语言形态切分。采用基于词典的搜索式切分对语料库进行预处理,后处理中运用最大熵模型训练蒙古语的形态生成。该方法有效的融合了形态信息的同时避免了传统的形态生成的复杂计算。
主流的统计机器翻译评测方法中,将单个词作为独立的基本单元实体进行评测,忽略了单个词中包含的形态结构信息。对于形态丰富的语言,大量构词构形信息包含在词缀中。对此类语言进行自动评测时,一个词素的错误导致整个词在评测中的错误。忽略了形态因子在译文中的价值,使得此类评测方法无法给予在形态信息表征上取得进步的系统更合理的评分。所以我们提出了一种基于形态因子的蒙古语机器翻译评测方法,在统计模型中加入语言特征的方法,解决了过度切分带来的粒度过小,结果不准确问题。丰富了对于形态丰富语言的评测方法和标准。