论文部分内容阅读
舆情分析作为自然语言处理研究的重要分支,近年来越来越受关注。随着藏文信息技术的发展,藏语也迈入了自然语言处理时代,而针对藏文文本的情感分析研究也越来越受到重视,但由于藏文文本的情感分析研究起步晚等原因使得在该领域有很多有待完善、需要提升的内容,具有很大的研究空间。本文在分析研究了国内外文本情感分析方法的基础上,结合藏文本身的特点,提出了“基于层次结构的藏文文本情感分析方法”,该方法中将藏文情感分析分为词语级、句子级、篇章级三个层次,并基于现有的资源,针对每一个层次的特点提出了不同的研究方法,并设计系统加以实现、验证。三个层次的主要工作如下:1.藏文词语级情感分析方面,针对情感词典缺乏的问题,首先人工整理包括基础情感词典、程度副词词典、否定和双否定词词典、转折词字典的藏文情感词典,验证了基于词向量扩充情感词典的几种方法,提出了knn扩充的方法最优,并用该方法从语料中自动扩充情感词,建立了一部比较实用的藏文情感词典;2.藏文句子级情感分析方面,归纳和总结了藏文句子的语言特性,抽象和提取出藏文句子情感分析的三层规则集:句型规则、句间规则、句内规则,提出了利用情感词典和规则集分析藏文句子情感的一种方法,并设计实现了藏文句子倾向性分析系统;3.藏文篇章级情感分析方面,针对藏文篇章情感分析语料建设困难的问题,先基于情感词典的方法对原始语料进行初步标注,再人工筛选得到标注语料,然后利用标注语料构建SVM模型,对篇章文本进行情感分析。针对传统的词袋模型维度大,且难以捕捉到情感特征等问题,提出采用混合情感特征的方法训练模型,得到了较好的效果。本文在现有的研究基础上,取得了以下成果:1.提出了藏文文本情感分析的三层框架;2.将词向量的方法用于藏文情感词典的扩充中,并对传统的基于相似度扩充词典的方法进行了改进,提高了准确率,获得了一部比较好的藏文情感词典;3.从藏文的文法特点出发,归纳和总结了适用于藏文的句子情感分析规则集,建立了句型规则、句间规则和句内规则,结合情感词典,设计和实现了藏文句子倾向性分析系统;4.不仅实现了基于情感词典的藏文篇章情感分析方法,而且还比较几种篇章情感计算的统计模型后,验证了基于情感特征组合的SVM方法的优越性。