论文部分内容阅读
维吾尔人名汉字音译是少数民族语言信息处理中需要解决的重要问题,并且在机器翻译、信息检索等应用中很重要的作用。近年来,因为新疆少数民族人名汉字音译转写缺少统一标准,维吾尔人名汉字音译转写时,在户口上是一种写法,在身份证上另一种写法,在护照上更不一样的用字写法、汇款单等又是一种写法。为此解决这些问题,本文主要对基于字形的DOM音译框架及维吾尔语音节分解的相关问题进行了较全面的分析,并在此基础上针对维吾尔人名汉字音译问题进行研究,论文的主要内容包括以下几个方面:1.本文首先介绍了基于字形的DOM音译框架,探讨了维吾尔人名汉字音译在该音译框架的可行性。可知,该音译框架将源语言中的字直接匹配到目标语言中的字的特点,并且维吾尔人名汉字音译,其实是维吾尔文字母或音节直接匹配到对应汉字的过程,因而充分利用该音译框架实现了维吾尔文字母及音节到汉字的映射。2.本文在研究维吾尔语音节切分相关的理论和关键技术的基础上,总结了维吾尔语音节分解原理,并实现维吾尔语音节分解统计系统,对5000人名进行音节分解的统计,给出了维吾尔人名中常用音节分布情况,并提出了20个常用的构成维吾尔人名的音节。3.在基于字形的框架下,设计出音节分切的维吾尔人名汉字音译的基本思想和总体框架,并在分析维吾尔人名汉字对音表结构的基础上,提出了维吾尔人名的字母或音节对汉字映射的最快、最有效的方法,基于矩阵的维吾尔人名对汉字映射的方法。实现了基于音节切分的维吾尔人名汉字音译系统,并对系统进行测试,使用5000个随机人名进行音译实验,得到了仅52%的准确率。4.本文为提高音译准确率,通过对大量维吾尔人名进行调研,找出106构成维吾尔人名词缀,并构建基于人名词缀的补充规则,因而能够区分维吾尔人名性别。将规则用在维吾尔人名汉字音译系统,进行二次测试,音译准确率提高了30%,最终达到了86%音译准确率,从而显示了本文提出的方法和规则的可行性,有效性。