论文部分内容阅读
藏文字符集标准发布较晚,导致目前使用的藏文编码多种多样.本文按编码所属体系分类介绍了26种藏文编码,讨论了藏文编码转换中的关键问题,介绍了藏文结构特点和统计学特征,介绍了各种可能的识别准则并进行分析比较.确定了使用以藏文的音节点间距规律为特征的识别准则识别15种藏文编码;使用以藏文高频音节为特征的识别准则识别其余11种藏文编码;使用以藏文句子结构特点为特征的识别准则发现未知藏文编码的方案.设计了藏文网页的编码识别与转换系统.测试结果表明,系统能够正确地识别藏文网页和区分非藏文网页,并能够正确地转换为Unicode字符集UTF-16LE编码.