基于ISO/IEC10646藏文编码字符集标准的藏文排序算法设计与实现

来源 :西藏大学 | 被引量 : 0次 | 上传用户:pandanemo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
藏文排序问题是藏文信息化的重要组成部分之一,也是藏文信息化程度的重要的标志之一,它不仅能够体现藏文信息化的步伐,而且更重要的是它能为人们在日常的文件检索、信息检索和文本排序等各方面提供前所未有的技术支撑。本文从藏文文字特点出发,通过分析藏文文法规则和各大藏文辞典的基本排序规则,设计了藏文排序算法。该算法主要通过四大模块,即识别基字算法、优先级算法、排序用数字编码串获取算法和快速排序算法等四个模块来实现藏文排序问题。在设计优先级算法过程中,考虑到藏文的复杂性和藏文排序的需要,又将优先级算法分为结构优先级、构件优先级和字符优先级三个模块。由于藏文基本辅音字符具有序性,根据藏文排序的基本原则,创造性地提出了识别基字算法和三种优先级算法。通过识别基字算法能够从藏文各音节中正确提取基字,实现该音节放在分组排序的相应组中,然后由结构优先级解决各音节中基字相同但结构不同的词语的排序问题;构件优先级算法把结构相同但构件不同的各音节进行排序;字符优先级算法把结构和构件相同但构件元素不同的词语进行排序。因此,不仅解决了藏文排序的根本问题,降低了排序算法的时间复杂度和空间复杂度,而且更使算法具有了较强的生命力。由于本算法着重考虑其通用性,且考虑到藏文各种短语的音节数量长短不一,同时每一个音节中包含的构件元素产生的比较用数字编码串的位数多达28位,在多个音节时其数字编码串的位数成倍增长,因此在算法设计过程中限定了音节的最大长度。随着音节数目的增加,数字编码串在存储时出现了新的难题,这是因为32位计算机不能直接处理超出32位的数字序列,而本算法的序列长度大大超出该范围。因此,在实现算法时,将原本数字格式的编码串转换为文本格式,使得上述难题迎刃而解。
其他文献
本文从蒙古文信息处理的实际需要出发,对蒙古语性质形容词与其它词类词的搭配问题进行了探索,并运用统计学方法归纳出蒙古语性质形容词的搭配特征和句法关系。全文结构和基本
本文研究的目标是实现介词短语“往+X”在计算机中的自动识别,要实现这一目标,首先就是要让计算机能够自己确定介词短语“往+X”的左右边界,介词短语“往+X”的左边界是介词
近年来,人才工作的战略地位日益凸显,各地先后出台大力度的招才引智政策,呈现出各具特色的人才工作新格局。深入且理性地研究分析地方人才理念和政策的演变过程,有利于科学做
本文旨在运用关联理论探讨交替传译中的推理认知过程,尤其是译员如何通过语境假设获取最佳关联,正确处理说话者言语中的模糊信息,最终将说话者的信息意图和交际意图传达给听
本文是笔者针对《亚洲的局势》前三个章节的翻译而撰写的反思性研究报告。作者欧文·拉铁摩尔是美国学界研究中国边疆理论的开创者,也是著名的地缘政治学家。这本书标志着拉
目的:本研究通过体外实验对肿节风中新分离得到的单体迷迭香酸苷抗流感病毒效果进行评价。方法:1.CCK8法检测迷迭香酸苷对MDCK(狗肾细胞)和A549(人肺癌细胞)细胞的毒性。2.以
双腔心脏起搏器的起搏与感知活动涉及心房与心室两个心腔,需在心房和心室内各放一电极导线.心房电极导线常用J形电极导线钩挂于右心耳内,也可用主动螺旋电极导线旋入心房壁的
小学语文精彩课堂的构建要充分把握"快乐教学"这一构建基点。课堂中应以快乐思想为指导,创建快乐教学情境;引导学生积极投入个人情感,加强主动感知;以课堂游戏为吸引点,构建
从规划的角度对NB-IoT关键技术进行研究,分析了产业现状。论述了上述关键技术对网络覆盖和容量的影响。分析了NB-IoT无线网络规划流程、覆盖评估方法、容量评估方法和部署方