论文部分内容阅读
藏文信息处理的研究已有多年的历史,但直到近几年,主流的操作系统平台才逐渐完善地解决了Unicode国际标准藏文字符集支持问题,但目前仍有多种藏文编码在使用,数据交换和共享仍然是一个问题。同时,由于藏文文本中词语之间没有分隔标记,同汉语类似,分词是藏文自然语言处理的一项基础性任务。另外,语料是统计自然语言处理的最基本的原材料,藏文信息处理目前仍然面临着语料匮乏的困境。针对以上问题,本文主要研究了藏文编码的识别与转换、藏文分词、网络藏文文本资源的挖掘和利用等方面的内容。取得的主要成果包括:
第一:研究了多种藏文编码共存的现状,提出了一种综合使用藏文的音节点间距规律和高频音节为特征的藏文编码识别方法,在大规模应用的环境中识别正确率接近100%。
我们研究了藏文的三种编码模型和三种编码实现方案,并介绍了多种藏文编码,提出了一种综合使用藏文的音节点间距规律和藏文高频音节为特征的藏文编码识别方法。实验证明,在大规模应用的环境下识别正确率接近100%。为了实现对有限的藏文电子资源的充分利用,方便藏文电子数据的交换和共享,我们开发了藏文编码转换软件,可以实现多种藏文编码的互相转换和归一化转换。
第二:研究并解决或部分解决了基于规则的藏文分词方法中的交集型歧义消除、藏文数字识别等问题,设计实现了基于规则的藏文分词系统,该系统对藏文数字识别的正确率为99.21%,分词正确率为96.98%。
我们提出了一种迭代训练的方法进行词频统计并利用词频信息进行交集型歧义消除的方法,部分解决了交集型歧义问题;提出了使用双数组Trie树进行临界词快速识别的方法。应用这些方法,设计实现了一个藏文分词系统SegT。该系统采用格助词分块并识别临界词,然后采用最大匹配方法分词,系统采用双向切分检测交集型歧义字段并使用预先统计的词频信息进行消歧。我们考察了藏文数字的构成规律,将藏文数字构件分成基本数字、数字前缀、数字连接词、数字后缀、独立数字等多种类别,采用对藏文数字构件分类贴标签、按照一定规则进行标签更新、最后合并数字构件的方法进行藏文数字识别。实验结果表明,本文设计的格助词分块和临界词识别方法可以将分词速度提高15%左右,但格助词分块对分词效果没有明显提高或降低,藏文数字识别的正确率为99.21%。系统最终分词正确率为96.98%。
第三:提出了一种通过对藏文音节进行词位标注实现藏文分词的方法,研究了不同特征模板集和语料规模对分词性能的影响,在国内外较早地将统计方法应用于藏文分词中,训练的分词模型在测试语料上的F值为95.12%。
我们将藏文分词转化为对藏文音节的词位标注问题,采用8词位标注集,利用条件随机场,训练了一个藏文分词模型CRF-SegT。我们在实验中进行各种方面的比较,实验数据表明,特征模板集TMPT-6比TMPT-10更好一些,较大规模的语料能够显著地提高分词性能,但词典语料对性能的提升不明显。使用131903句由SegT生成并未经人工校对的训练语料得到的分词模型在1000句的测试语料上测试的F值达到了95.12%。
第四:研究了网络藏文文本资源的分布情况,抽取了一份包含159万句、共计3500万音节字的藏文文本语料,设计实现了一个通用的藏文搜索引擎的原型系统。
我们结合链接分析技术和藏文编码识别技术,使用网络爬虫实现对互联网上Web文本资源的挖掘,并配合人工方式,相对全面地考察分析了Web藏文文本资源的分布情况。根据我们的分析,首先,国内藏文网站50%以上在青海省;其次,旧有的藏文编码正在被逐步地弃用,人们转而使用国际标准的Unicode编码来制作Web页面;再次,87%的藏文网页集中分布在31个大型网站中。Web藏文文本资源分布的集中性为文本采集加工提供了一定的方便。我们选择了三个最大的藏文网站,根据其网页URL和内容结构编制了一系列的规则,抽取了159万句,共计3500万音节字的藏文文本语料。由于当前仍有多种藏文编码在使用,现有的搜索引擎对藏文编码支持能力不足,针对该问题,我们分析了构建通用的藏文搜索引擎的关键技术,设计实现了一个通用藏文搜索引擎的原型系统。