藏文分词及文本资源挖掘研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:qqqq920644875
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
藏文信息处理的研究已有多年的历史,但直到近几年,主流的操作系统平台才逐渐完善地解决了Unicode国际标准藏文字符集支持问题,但目前仍有多种藏文编码在使用,数据交换和共享仍然是一个问题。同时,由于藏文文本中词语之间没有分隔标记,同汉语类似,分词是藏文自然语言处理的一项基础性任务。另外,语料是统计自然语言处理的最基本的原材料,藏文信息处理目前仍然面临着语料匮乏的困境。针对以上问题,本文主要研究了藏文编码的识别与转换、藏文分词、网络藏文文本资源的挖掘和利用等方面的内容。取得的主要成果包括:   第一:研究了多种藏文编码共存的现状,提出了一种综合使用藏文的音节点间距规律和高频音节为特征的藏文编码识别方法,在大规模应用的环境中识别正确率接近100%。   我们研究了藏文的三种编码模型和三种编码实现方案,并介绍了多种藏文编码,提出了一种综合使用藏文的音节点间距规律和藏文高频音节为特征的藏文编码识别方法。实验证明,在大规模应用的环境下识别正确率接近100%。为了实现对有限的藏文电子资源的充分利用,方便藏文电子数据的交换和共享,我们开发了藏文编码转换软件,可以实现多种藏文编码的互相转换和归一化转换。   第二:研究并解决或部分解决了基于规则的藏文分词方法中的交集型歧义消除、藏文数字识别等问题,设计实现了基于规则的藏文分词系统,该系统对藏文数字识别的正确率为99.21%,分词正确率为96.98%。   我们提出了一种迭代训练的方法进行词频统计并利用词频信息进行交集型歧义消除的方法,部分解决了交集型歧义问题;提出了使用双数组Trie树进行临界词快速识别的方法。应用这些方法,设计实现了一个藏文分词系统SegT。该系统采用格助词分块并识别临界词,然后采用最大匹配方法分词,系统采用双向切分检测交集型歧义字段并使用预先统计的词频信息进行消歧。我们考察了藏文数字的构成规律,将藏文数字构件分成基本数字、数字前缀、数字连接词、数字后缀、独立数字等多种类别,采用对藏文数字构件分类贴标签、按照一定规则进行标签更新、最后合并数字构件的方法进行藏文数字识别。实验结果表明,本文设计的格助词分块和临界词识别方法可以将分词速度提高15%左右,但格助词分块对分词效果没有明显提高或降低,藏文数字识别的正确率为99.21%。系统最终分词正确率为96.98%。   第三:提出了一种通过对藏文音节进行词位标注实现藏文分词的方法,研究了不同特征模板集和语料规模对分词性能的影响,在国内外较早地将统计方法应用于藏文分词中,训练的分词模型在测试语料上的F值为95.12%。   我们将藏文分词转化为对藏文音节的词位标注问题,采用8词位标注集,利用条件随机场,训练了一个藏文分词模型CRF-SegT。我们在实验中进行各种方面的比较,实验数据表明,特征模板集TMPT-6比TMPT-10更好一些,较大规模的语料能够显著地提高分词性能,但词典语料对性能的提升不明显。使用131903句由SegT生成并未经人工校对的训练语料得到的分词模型在1000句的测试语料上测试的F值达到了95.12%。   第四:研究了网络藏文文本资源的分布情况,抽取了一份包含159万句、共计3500万音节字的藏文文本语料,设计实现了一个通用的藏文搜索引擎的原型系统。   我们结合链接分析技术和藏文编码识别技术,使用网络爬虫实现对互联网上Web文本资源的挖掘,并配合人工方式,相对全面地考察分析了Web藏文文本资源的分布情况。根据我们的分析,首先,国内藏文网站50%以上在青海省;其次,旧有的藏文编码正在被逐步地弃用,人们转而使用国际标准的Unicode编码来制作Web页面;再次,87%的藏文网页集中分布在31个大型网站中。Web藏文文本资源分布的集中性为文本采集加工提供了一定的方便。我们选择了三个最大的藏文网站,根据其网页URL和内容结构编制了一系列的规则,抽取了159万句,共计3500万音节字的藏文文本语料。由于当前仍有多种藏文编码在使用,现有的搜索引擎对藏文编码支持能力不足,针对该问题,我们分析了构建通用的藏文搜索引擎的关键技术,设计实现了一个通用藏文搜索引擎的原型系统。  
其他文献
当今社会互联网技术的飞速发展以及与电信网络不断融合的背景下,VOIP技术在互联网中变得也来越重要,网络中对传输语音视频数据的需求在不断增强。互联网的飞速发展加速了互联
近年来新型社交媒体微博客平台高速发展,已经逐渐成为人们分享、获取信息的主要方式。由于微博客平台用户量急剧增多,用户产生的数据总量呈现爆炸式增长,基于这些信息的突发话题
随着以DropBox、EverNote等为代表的云存储服务的兴起与不断发展,云存储平台在存储数据方面的可靠性、易用性使得个人信息正在不断从传统的存储介质向云存储转移,云存储平台正
随着计算机和互联网技术的飞速发展,网络上的多媒体信息呈现爆炸式的增长态势。如何分类和检索这海量的多媒体数据,是人们的迫切需求,也成为亟待解决的问题。基于内容的互联网图
随着社会的不断发展进步,人们已经步入了信息化时代,集成电路设计与工艺制造作为信息产业的基础,对信息化的高速发展发挥着关键性作用。本论文以高性能处理器中的关键模块寄存器
软件缺陷检测是计算机科学特别是软件工程相关领域的重要研究工作之一。对于静态检测方法而言,如何在保障准确性的同时改善可扩展性一直以来都是研究的热点问题。本文设计并实
相场模型起源于计算材料科学,被广泛应用于模拟材料物理、计算化学等领域的多个过程。近年来,相场法已成为该领域模拟中尺度水平微结构演化的一项通用性很强的数值方法。指数时
车联网系统旨在通过车车之间(V2V)、车路之间(V2I)的信息交互,有效地降低道路事故率,提高交通效率,并为用户提供高质量的流媒体服务。在行车安全方面,基于短距离通信协议(DSRC)的
随着互联网和办公自动化的日益普及,PDF(Portable Document Format)文档以其丰富的功能、高度的集成与封装以及平台无关的特性迅速成为全球电子文档分发的开放式标准。PDF文档
互联网中的信息聚类与整合是研究人员一直关注和研究的热点问题,由于信息量大,算法需要综合考虑准确率、运行效率和存储开销等问题,存在较大研究难度。本文针对互联网中新闻信息