藏文编码识别与转换算法的研究与实现

被引量 : 0次 | 上传用户:yaoyao1021
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术和网络技术的飞速发展,藏文信息处理的工作取得了很大的进步。但是由于藏文国际标准编码和国家标准编码出台的相对滞后,目前市场上各种软件厂商采取自己的编码标准,使得各种藏文资料、网站之间不能兼容,信息不能共享,从而严重影响了藏文信息处理工作的发展。目前大多数文献资料仍然是采用了整字编码的GB2312体系的编码作为藏文编码。本文首先讨论了藏文编码识别与转换中的关键问题,介绍了藏文结构特点和统计学特征,介绍了各种可能的识别准则并进行分析比较。确定了使用以藏文的音节点间距规律为特征和高频音节为特征的识别方法对方正Windows、方正Dos、同元、华光Windows、华光Dos、班智达、ISO/IEC 10646基本集、国家标准扩充集A的藏文编码识别;并能够正确地将藏文文本与其他语言区分。其次为了实现各种非标准藏文编码到国家标准或国际标准藏文编码的统一转换,本文主要进行的工作分为两个部分:首先制定基于GB2312体系非标准的藏文编码到国家标准扩充集编码之间的查询对照表,同时依据分析后需要转换的编码的特征采用基于个编码特点的查询算法实现了方正Windows、方正Dos、同元、华光Windows、华光Dos等藏文编码向ISO/IEC 10646基本集和国家标准扩充集A的藏文编码的转换;同时也实现了,国家标准扩充集A到ISO/IEC 10646基本集的转换。最后设计了藏文编码识别与转换系统,通过大量数据集对本系统进行了测试。由测试结果可知该系统对藏文编码的识别与转换达到了预期的效果。
其他文献
苗族服饰上的纹样被称为是"穿在身上的史书"。苗族万物有灵的宗教信仰,使苗族认为除天地外,树木花草皆可成为崇拜的神灵对象。多姿多彩的大自然是苗族服饰纹样构成的来源。大
汽车作为运输和交通的手段,已成为当今社会生活中不可缺少的工具。汽车防撞雷达系统首选FMCW(调频连续波)体制,采用线性调制连续波(LFMCW)方式,其最大优点就是:可以根据发射
丹参(Salvia miltiorrhriza Bunge)是我国传统医学中常用药物之一,从丹参中提取的丹参酮成分具有改善血液循环、除热、养血、清心除烦、凉血等功效,是衡量丹参药材及其制品的
反对强迫自证其罪原则产生于17世纪的英国,它体现了人权保障、程序公正等现代法治理念,是一国刑事诉讼制度民主化的重要标志。笔者认为,反对强迫自证其罪原则有两方面含义:一
传统观点认为转喻是一种修辞手法,在两个相联系的事物中,以一种事物的名称来指代另外一种事物名称。随着认知语言学在过去的几十年中的发展,以Lakoff和Johnson(1980)等为代表
藕节作为一味传统中药,始载于《名医别录》,历代本草均有记述。《中华人民共和国药典(2005版)》记录了藕节甘、涩、平。止血,消瘀。用于吐血,咯血,衄血,尿血,崩漏。我国莲藕
随着网络技术不断发展,网络以其强大的功能在社会各个领域中发挥着越来越大的作用,在教育领域也不例外,各种各样的网络化教学方式使用和研究越来越多,特别是网络教学平台,得
室内空气品质直接影响人们的身体健康。上世纪90年代前后,国外学者实验研究发现,室内颗粒物是导致病态建筑综合症(SBS)的重要因素。如今,室内空气污染状况及其对人体健康的影
物理科学作为自然科学的重要分支和历次科学技术革命的先导,在人类社会发展的进程中一直起着极其重要的作用,它不仅对人类物质文明的进步和人类对自然界认识的深化起了重大的
在壁画的保护修复实践中,调查空鼓病害的分布范围、严重程度以及评价空鼓壁画的灌浆加固效果一直是个技术难题。传统上通常采用敲壁辨音的经验方法,但它依赖于个人主观感觉,