论文部分内容阅读
敦煌文献是对20世纪初发现于甘肃敦煌莫高窟17号洞窟中的一批书籍的总称,指敦煌所出2至14世纪的古写本及印本,总数约6万卷,其中佛经约占90%,目前分散在全世界。中国国家图书馆藏有16000余件,包括古汉文、藏文以及其他民族的语言,其中敦煌藏文文献是研究藏族文化和历史的珍贵史料,该文献属于古藏文,主要记载了吐蕃时期的宗教、政治和文化等内容,在藏族文化研究中有举足轻重的地位。截止到90年代末之前,藏文字频统计研究方面,没有任何明确的记录和报道,世界上第一部频度词典是德国学者F.W.Kaeding 1898年编制的《德语频度词典》。70年代,北京新华印刷厂等19家单位用两年的时间对2100多万字的资料进行了汉字查频工作,编成了《汉字频度表》1。90年代末开始,中国藏学、西藏大学、西北民族大学、青海师范大学等高校和科研机构,先后进行了建设藏文语料库以及开发藏文字词频统计软件,为藏文大规模统计开辟了新的征程。本文基于敦煌古藏文文献语料库,从自然语言处理角度对敦煌古藏文文献进行分词、字符统计和音节统计等处理,并结合传统藏文文法对藏文字词的属性进行研究和分析,为古藏文分词系统的构建和古藏文信息化处理提供理论基础。具体内容包括:1.语料整理和软件设计文中所应用的古藏文文献语料,是以法国国家图书馆和西北民族大学等合作编纂的《法国国家图书馆藏敦煌藏文文献》中的416篇人工录入为基础,收录了221个OTDO(Old Tibetan Documents Online)1古藏文在线文献,以及32个分布于藏区各地的摩崖、石碑和铭文。到目前为止,语料库共收录了680个文本,总字数达739873,实现了较为完整的古藏文语料样本。在收集文献的过程中,为保障统计结果的可信性,对收集语料中的拉丁转写文,利用祁坤钰先生指导及编写的Python W2T(拉丁文转藏文软件)进行转换,转换效果约达99%以上准确率。2.古藏文字符统计藏文语法理论中,藏文公认为是参照梵文创制的。公元7世纪初智者吞米桑布扎从梵文16个元音中选取4个与藏语发音相近的字母;从34个辅音中选取了24个与藏语发音相似的字母,在此基础上新创6个符合藏语发音的特殊字母,最后创制了30个藏文辅音字母和4个元音符号。但本人对古藏文语料库中的字符统计后发现,古藏文中藏文辅音字母不仅比现代藏文多出了7个,元音符也多出了3个。因此文中本人以对比的方式解释了这些现象,并对藏文数字符合藏文符号也进行了统计和分析。3.古藏文音节统计藏语语音的特点是单音节性,每一组元音和辅音字符串代表藏语里的一音节,每个音节可能代表藏语里的一个词,也可能代表一个词素。本人对680个古藏文文献语料进行统计后发现,语料库共有739873个字,经处理后共出现16848个藏文音节。经过与现代藏文音节对比发现,古藏文音节基本上与现代藏文遵循着同样的特点,没有太大差异,但在单个字丁组成方面,古藏文显得更加自由。通过古今藏文统计数据的对比,总结出古今藏文音节的变化特征。4.古藏音节中的文异体字分析现代藏文中,一个藏文音节一般由一到七个构件构成,这七种构件每个位置上都有严格的字符限制。单个字符组成音节时,必须是辅音字母构成的基字,元音符只能在基字的基础上充当上下构件,不能单独使用。然而在古藏文中却不尽相同,古藏文在组成音节时显得比较自由,而这些与现代藏文文法不符的藏文音节就叫做异体字。文中作者按照其书写规律,在陈践老师的研究基础上对古藏文中的异体字进行分类研究。5.古藏文中的缩写体研究缩写体又称紧缩字,在古今藏文文献中都占有一定数量。本文在古藏文音节统计的基础上,对古藏文文献中的缩写体进行分类,探究其书写规律。藏文缩写体,对构件藏文自动分词系统等藏文信息处理工作带来一定影响,本文在现有的现代藏文缩写体识别技术基础上,依照古藏文缩写体特征提出古藏文缩写体识别方法。