论文部分内容阅读
统计机器翻译(Statistical Machine Translation,SMT)是自然语言处理(Natural Language Processing,NLP)领域最困难的问题之一。为了让使用不同语言的人能更好地交流,机器翻译显得尤为重要;它能够作为一种辅助性的翻译,提高人工翻译的速度和效率,从而节约人工翻译的成本。因此,统计机器翻译近来年成了自然语言处理领域的研究热点之一。 大多数统计机器翻译的研究,都集中在英语与汉语之间的翻译问题上。中国是一个多民族的国家,为了促进各民族之间的团结与交流,使得各少数民族语言到汉语的翻译被人们所关注。本文选择了比较有民族特色的维吾尔语(以下简称维语)到汉语的翻译作为研究内容。 本文首先详细分析了统计机器翻译的研究现状,指出了现有两种比较典型的翻译模型的特点;然后结合维语的语言特征,分析了目前维汉翻译中的一些基础工作的不足,接着对这些不足进行改进,从而提高维汉翻译的质量。本文在以往的基于规则的维语词法分析基础上,提出了一种基于有向图的概率统计模型进行维语的词法分析,该方法不仅在准确率和召回率上有所提高,同时也大大提高了维语词法分析的速度。然后,在此基础之上,提出了一种基于上下文的拉丁维语自动拼写校对方法,减少了拼写校对中的人工干预,并很好地利用了上下文信息。 本文最后在词格翻译(1attice-based translation)和系统融合的基础之上,将两者结合起来,使得源语言(维语)的信息得到更充分地利用。先把维语词法分析的结果构建成词格,然后翻译词格,将多种翻译结果利用系统融合技术结合到一块,得到最佳译文,从而进一步提高维汉翻译的质量。