论文部分内容阅读
近几年来基于语料库的机器翻译取得了巨大的成功,统计方法已经成为机器翻译方法的主流。汉英机器翻译的发展非常迅速,相对来说蒙古语机器翻译的研究受限于语料库以及基础关键技术的研究滞后而落后。作者认为,通过汉蒙机器翻译的一些主要关键技术的研究,可以为今后的蒙古语自然语言处理和机器翻译打下基础,对进一步的研究起到推动作用。
本文主要围绕汉蒙机器翻译中急需解决的一些关键问题进行研究。具体来说,本文在以下几个方面做了创新性的工作:
1.蒙古语语言模型
语言模型是机器翻译、文字识别、语音识别等工作的基础。考虑到蒙古语的一些特点,我们提出了三种不同的基于词干/词缀的蒙古语语言模型架构。
1)利用长距离依赖的SKIP-N语言模型。通过挖掘蒙古语词语的长距离依赖信息,采用类似于n-gram的统计方法得到远距离的依赖概率。
2)利用词干词缀关系的词干词缀模型。根据蒙古语词可以分成词干、词缀的特点,考虑到词干与词干、词干与词缀、词缀与词缀之间的关系,构成一个组合式的语言模型。
3)Trigger和N-ngram相结合的语言模型。利用Trigger的便于表达长距离依赖和N-gram易于表示短距离依赖的特点,将两者结合构成一种复合语言模型。
2.蒙古语词切分技术
蒙古语词切分是语料库处理的关键步骤之一。在利用一些拆分规则的基础上,提出了利用统计语言模型的分词候选结果评价方法。这里使用了拆分规则和N-gram语言模型、SKIP-N语言模型和词性语言模型。
通过实验,切分的准确率提高到94%。
3.基于实例的汉蒙机器翻译技术
提出了用于汉蒙机器翻译的实例模型。给出了适合与蒙古语特点相适应的实例匹配、片段分割、片段组合和评价的算法。相似度计算采用了词的相似度、词性相似度、连续匹配长度等信息。利用词性过滤、常用词过滤减小了搜索空间。利用语言模型作为候选集的评价方法。
4.统计汉蒙机器翻译
提出了汉蒙统计机器翻译的模型。实现了一个基于短语的汉蒙机器翻译系统。
提出了一种概率化的调序模型。这个模型利用短语的相对位置差作为概率计算的基础。利用正态分布模型概率化调序模型。通过实验结果我们知道,这个方法对汉蒙机器翻译非常有效。