藏文网页的编码识别与转换

来源 :中国中文信息学会二十五周年学术会议 | 被引量 : 0次 | 上传用户:song656334704
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
藏文字符集标准发布较晚,导致目前使用的藏文编码多种多样.本文按编码所属体系分类介绍了26种藏文编码,讨论了藏文编码转换中的关键问题,介绍了藏文结构特点和统计学特征,介绍了各种可能的识别准则并进行分析比较.确定了使用以藏文的音节点间距规律为特征的识别准则识别15种藏文编码;使用以藏文高频音节为特征的识别准则识别其余11种藏文编码;使用以藏文句子结构特点为特征的识别准则发现未知藏文编码的方案.设计了藏文网页的编码识别与转换系统.测试结果表明,系统能够正确地识别藏文网页和区分非藏文网页,并能够正确地转换为Unicode字符集UTF-16LE编码.
其他文献
日本的临床检查员职业化制度发展较为完善,日本临床检查员的招募、培训、检查流程已形成了一套成熟的制度,对我国有一定的借鉴意义.本文结合日本对临床检查员的管理,提出完善
本文中,对富士通中文语音合成系统尤其是韵律实现进行了描述.该系统是一个以音节为基本合成单元,在韵律参数预测即音长和基频的指导下,从音库中搜寻全局最优的合成单元,然后
随着信息技术尤其是计算机网络在我国藏族地区的发展,以及世界范围的经济、文化的不断交流,包括西藏在内的所有藏语地区的藏语文工作者和用户对高质量的藏文版本的计算机操作
会议
本文分析了当前国内语音语料标注结果的存储结构的局限,不但从理论上分析了关系型数据库在设计语音语料库存储结构方面的优势,提出了离散型语音语料库和集中型语音语料库这两
阿齐沙坦是新型血管紧张素 Ⅱ受体拮抗药(ARB),与其他 ARB类药物相比,具有选择性高、降压效果显著、安全性高、耐受性好、不良反应少和心脑血管保护等优点,可单用或者与其他
本文描述了一套面向Web基于XML的开放式中文语言处理平台,命名为"语言技术平台LTP".LTP包含5项主要内容:语言技术置标语言LTML、基于DOMTree的一套DLL模块、一套可视化工具、
会议
读过普通化学的人,都知道有元素的週期表(Periodic table)。週期表把错综复杂的元素,排列成为有系统的表式,很明晰地加以分类,这对于近代化学的进展,无疑的有很重要的贡献。
文字符号的极限熵是在充分考虑上下文信息条件下,字符所包含平均信息量的大小.本文分别利用两种统计方法来估计汉字的极限熵:第一种方法通过计算汉字的n阶熵来逼近极限熵;第
会议
解放军第十一医院创建于1946年,经过半个多世纪的艰苦创业,现已发展成集医疗、预防、教学、科研、康复为一体,环境优雅、设备先进、特色明显、技术力量雄厚的综合性二级甲等医院
中文输入法是中文信息处理的基础软件.本文针对现有输入法很少考虑利用候选词语本身特性来进行排序的情况,给出了将输入法词库进行类别标注以及在输入法系统中集成分类引擎的
会议