论文部分内容阅读
藏文排序问题是藏文信息化的重要组成部分之一,也是藏文信息化程度的重要的标志之一,它不仅能够体现藏文信息化的步伐,而且更重要的是它能为人们在日常的文件检索、信息检索和文本排序等各方面提供前所未有的技术支撑。本文从藏文文字特点出发,通过分析藏文文法规则和各大藏文辞典的基本排序规则,设计了藏文排序算法。该算法主要通过四大模块,即识别基字算法、优先级算法、排序用数字编码串获取算法和快速排序算法等四个模块来实现藏文排序问题。在设计优先级算法过程中,考虑到藏文的复杂性和藏文排序的需要,又将优先级算法分为结构优先级、构件优先级和字符优先级三个模块。由于藏文基本辅音字符具有序性,根据藏文排序的基本原则,创造性地提出了识别基字算法和三种优先级算法。通过识别基字算法能够从藏文各音节中正确提取基字,实现该音节放在分组排序的相应组中,然后由结构优先级解决各音节中基字相同但结构不同的词语的排序问题;构件优先级算法把结构相同但构件不同的各音节进行排序;字符优先级算法把结构和构件相同但构件元素不同的词语进行排序。因此,不仅解决了藏文排序的根本问题,降低了排序算法的时间复杂度和空间复杂度,而且更使算法具有了较强的生命力。由于本算法着重考虑其通用性,且考虑到藏文各种短语的音节数量长短不一,同时每一个音节中包含的构件元素产生的比较用数字编码串的位数多达28位,在多个音节时其数字编码串的位数成倍增长,因此在算法设计过程中限定了音节的最大长度。随着音节数目的增加,数字编码串在存储时出现了新的难题,这是因为32位计算机不能直接处理超出32位的数字序列,而本算法的序列长度大大超出该范围。因此,在实现算法时,将原本数字格式的编码串转换为文本格式,使得上述难题迎刃而解。