论文部分内容阅读
维吾尔族和哈萨克族分别是新疆第一和第二大少数民族。维吾尔文与哈萨克文分别是新疆维吾尔族与哈萨克族群众在日常学习、工作和生活中使用的主要文字。新中国成立以来,我国的维吾尔文与哈萨克文都各自使用过三种文字进行书写,分别是基于阿拉伯字母的现行维吾尔文和现行哈萨克文,基于拉丁字母的维吾尔新文字和哈萨克新文字,以及基于拉丁字母的拉丁维吾尔文和拉丁哈萨克文。除新疆外,维吾尔族与哈萨克族还广泛分布于中亚地区的哈萨克斯坦、乌兹别克斯坦等国家。这些国家的维吾尔族和哈萨克族使用的则是基于西里尔字母的西里尔维吾尔文和西里尔哈萨克文。实现维吾尔语、哈萨克语不同种语言不同文字之间的相互转换对维吾尔族和哈萨克族群众使用文字进行交流,以及信息共享具有重要意义。 本文作者全面、深入的研究和分析了维吾尔语、哈萨克语同种语言不同文字之间编码字符转换的现实需求、研究现状,以及需要解决的科学问题。针对这一研究领域当前还没有解决或还没有很好解决的若干问题提出了自己的解决方案。作者完成的主要工作包括: 1)全面理清了现行维吾尔文、哈萨克文字母与同种语言其它文字字母的对应关系和编码字符转换方法;理清了编码字符转换过程中标点符号、控制符号等编码字符的处理方法,通过列举实例和实验验证的方法保证了标准中规则的正确性和完整性,在此基础上制定了六个编码字符转换标准。 2)针对现行哈萨克文字母(I9),(;),(gs),(gs)的特殊书写规则,提出了基于OpenType字体技术的处理方法。新方法可以避免当前广泛采用的“字母替换法”存在的不能按字母顺序正确排序现行哈萨克文文本,增加现行哈萨克文文字转换和语音合成实现难度等不足。通过对1万个随机抽取的常用现行哈萨克文单词进行分析表明,新方法能避免2843个单词的排序错误,避免3960个单词可能发生的文字转换和语音合成错误;提出了将“字母替换法”生成的现行哈萨克文转换为与“新方法”一致的现行哈萨克文的方法。 3)分析了互联网拉丁维吾尔文的拼写特点;理清了互联网拉丁维吾尔文语句中的单词及单词中的字母与对应现行维吾尔文语句中的单词及单词中的字母的对应关系;以单词和字母的对应关系为基础,提出了规则和统计相结合的互联网拉丁维吾尔文规范化方法;初步的实验表明,该方法规范互联网拉丁维吾尔文的正确率能达到86%。 本文的研究成果对各种维吾尔文、哈萨克文文字转换工具和相关信息系统的研发具有指导意义,对现行哈萨克文编码字符处理及其规范化有指导意义,对互联网拉丁维吾尔文、哈萨克文规范化,以及相关互联网拉丁维吾尔文、哈萨克文内容分析系统的研发具有指导意义。