维吾尔文、哈萨克文编码字符转换方法研究及标准制定

来源 :天津大学 | 被引量 : 0次 | 上传用户:henrychen999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
维吾尔族和哈萨克族分别是新疆第一和第二大少数民族。维吾尔文与哈萨克文分别是新疆维吾尔族与哈萨克族群众在日常学习、工作和生活中使用的主要文字。新中国成立以来,我国的维吾尔文与哈萨克文都各自使用过三种文字进行书写,分别是基于阿拉伯字母的现行维吾尔文和现行哈萨克文,基于拉丁字母的维吾尔新文字和哈萨克新文字,以及基于拉丁字母的拉丁维吾尔文和拉丁哈萨克文。除新疆外,维吾尔族与哈萨克族还广泛分布于中亚地区的哈萨克斯坦、乌兹别克斯坦等国家。这些国家的维吾尔族和哈萨克族使用的则是基于西里尔字母的西里尔维吾尔文和西里尔哈萨克文。实现维吾尔语、哈萨克语不同种语言不同文字之间的相互转换对维吾尔族和哈萨克族群众使用文字进行交流,以及信息共享具有重要意义。  本文作者全面、深入的研究和分析了维吾尔语、哈萨克语同种语言不同文字之间编码字符转换的现实需求、研究现状,以及需要解决的科学问题。针对这一研究领域当前还没有解决或还没有很好解决的若干问题提出了自己的解决方案。作者完成的主要工作包括:  1)全面理清了现行维吾尔文、哈萨克文字母与同种语言其它文字字母的对应关系和编码字符转换方法;理清了编码字符转换过程中标点符号、控制符号等编码字符的处理方法,通过列举实例和实验验证的方法保证了标准中规则的正确性和完整性,在此基础上制定了六个编码字符转换标准。  2)针对现行哈萨克文字母(I9),(;),(gs),(gs)的特殊书写规则,提出了基于OpenType字体技术的处理方法。新方法可以避免当前广泛采用的“字母替换法”存在的不能按字母顺序正确排序现行哈萨克文文本,增加现行哈萨克文文字转换和语音合成实现难度等不足。通过对1万个随机抽取的常用现行哈萨克文单词进行分析表明,新方法能避免2843个单词的排序错误,避免3960个单词可能发生的文字转换和语音合成错误;提出了将“字母替换法”生成的现行哈萨克文转换为与“新方法”一致的现行哈萨克文的方法。  3)分析了互联网拉丁维吾尔文的拼写特点;理清了互联网拉丁维吾尔文语句中的单词及单词中的字母与对应现行维吾尔文语句中的单词及单词中的字母的对应关系;以单词和字母的对应关系为基础,提出了规则和统计相结合的互联网拉丁维吾尔文规范化方法;初步的实验表明,该方法规范互联网拉丁维吾尔文的正确率能达到86%。  本文的研究成果对各种维吾尔文、哈萨克文文字转换工具和相关信息系统的研发具有指导意义,对现行哈萨克文编码字符处理及其规范化有指导意义,对互联网拉丁维吾尔文、哈萨克文规范化,以及相关互联网拉丁维吾尔文、哈萨克文内容分析系统的研发具有指导意义。
其他文献
该文从技术特点的角度介绍了地理信息系统的发展现状和发展趋势,讨论了地理信息系统的开发方法,并根据东北农垦总局854农场的土地开发与出租的土地管理业务,提出了具体的系统
传统的基于实例的机器翻译方法对语料库规模要求极高,而在语料库规模不够的情况下存在精确匹配率不高、模糊匹配译文质量差等缺点,而采用单层翻译模板的方法对匹配到的短语翻
随着信息技术的发展,社会管理日趋电子化,自动化。在这样一个庞大的社会网络体系中,系统安全十分重要。准确地鉴别个人身份是各安全系统的必要前提。人脸是区别人的重要器官,利用
该文试图通过对分布式实时中间件系统中的容错技术进行研究,以达到降低设计和开发分布式实时应用成本的目的.第二章介绍了四种分布式实时系统结构模型,分析了几个典型的分布
图像恢复的经典方法包括逆滤波、维纳滤波、有约束最小二乘滤波等方法,图像的盲恢复方法是目前图像恢复领域中的一个研究热点。本文主要讨论了盲恢复算法中的先验模糊辨识方法
学位
该文在紧密联系大型钢铁企业的生产实际基础上,结合实际工程背景,提出了在大型钢铁企业中构建实施企业级数据仓库的整体方案.具体内容包括:首先介绍了数据仓库以及基于数据仓
信息化是高效管理的必由之路,许多机构(政府,企业等)经过近几年的信息化建设,已经初步具备了信息化的软硬件设施,在这些信息化过程当中,管理信息系统起着非常重要的作用,许多机构对自
学位
对于高分航空遥感图像的交通信息提取而言,对车辆目标的位置、朝向角和类别三要素的估计是开展后续一系列智能信息提取任务的基础和前提。对于现阶段常见的高分航空遥感图片而