藏文文本情感分析方法研究

来源 :西藏大学 | 被引量 : 0次 | 上传用户:wuww
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
舆情分析作为自然语言处理研究的重要分支,近年来越来越受关注。随着藏文信息技术的发展,藏语也迈入了自然语言处理时代,而针对藏文文本的情感分析研究也越来越受到重视,但由于藏文文本的情感分析研究起步晚等原因使得在该领域有很多有待完善、需要提升的内容,具有很大的研究空间。本文在分析研究了国内外文本情感分析方法的基础上,结合藏文本身的特点,提出了“基于层次结构的藏文文本情感分析方法”,该方法中将藏文情感分析分为词语级、句子级、篇章级三个层次,并基于现有的资源,针对每一个层次的特点提出了不同的研究方法,并设计系统加以实现、验证。三个层次的主要工作如下:1.藏文词语级情感分析方面,针对情感词典缺乏的问题,首先人工整理包括基础情感词典、程度副词词典、否定和双否定词词典、转折词字典的藏文情感词典,验证了基于词向量扩充情感词典的几种方法,提出了knn扩充的方法最优,并用该方法从语料中自动扩充情感词,建立了一部比较实用的藏文情感词典;2.藏文句子级情感分析方面,归纳和总结了藏文句子的语言特性,抽象和提取出藏文句子情感分析的三层规则集:句型规则、句间规则、句内规则,提出了利用情感词典和规则集分析藏文句子情感的一种方法,并设计实现了藏文句子倾向性分析系统;3.藏文篇章级情感分析方面,针对藏文篇章情感分析语料建设困难的问题,先基于情感词典的方法对原始语料进行初步标注,再人工筛选得到标注语料,然后利用标注语料构建SVM模型,对篇章文本进行情感分析。针对传统的词袋模型维度大,且难以捕捉到情感特征等问题,提出采用混合情感特征的方法训练模型,得到了较好的效果。本文在现有的研究基础上,取得了以下成果:1.提出了藏文文本情感分析的三层框架;2.将词向量的方法用于藏文情感词典的扩充中,并对传统的基于相似度扩充词典的方法进行了改进,提高了准确率,获得了一部比较好的藏文情感词典;3.从藏文的文法特点出发,归纳和总结了适用于藏文的句子情感分析规则集,建立了句型规则、句间规则和句内规则,结合情感词典,设计和实现了藏文句子倾向性分析系统;4.不仅实现了基于情感词典的藏文篇章情感分析方法,而且还比较几种篇章情感计算的统计模型后,验证了基于情感特征组合的SVM方法的优越性。
其他文献
随着网络普及以及网络带宽不断增加,绝大多数的商业站点都需要提供高质量的网络服务。包括提供全年365天24小时无间断的网络供应,以及对海量用户访问及时的请求响应。在互联
粒子滤波器在处理非线性或非高斯问题所显示出的巨大的潜力,使得其在非线性滤波领域受到了广泛的关注。与传统滤波方法相比,其具有简单易行的特点,因此在诸多研究领域得到了
图像分割是图像处理领域的重要研究内容,普遍应用于医学、气象、计算机视觉、军事、遥感等诸多研究领域。医学图像分割就是对医学图像进行有意义的划分,使其成为指定个数的相
智能交通系统是21世纪道路交通的发展趋势,而车牌自动识别技术是智能交通系统的一个非常重要的研究方向。车牌定位、车牌字符分割和车牌字符识别是车牌识别技术的重要组成部分
物联网的发展必将带来新的业务。然而,由于物联网业务具有多样性、动态性及实时性等特点,现有的业务平台并不能完全适用于物联网业务,因此,建立一个高效的物联网业务平台具有
全局优化问题广泛应用于工程设计、生产制造、交通运输和信息处理等领域。因其具有存在多个局部最优解或者一、二阶信息不易获得等性质,一般传统的优化方法并不适合求解该类问
互联网的快速发展使得无线网络的应用越来越广泛,出现了许多新的基于无线网络的增值服务,其中无线定位服务就是一项比较有前景的新业务,基于信号强度的无线局域网定位系统以其不
随着人们生活水平的提高,舒适、优雅、绚丽的针织服饰越来越被大众所青睐,而电脑横机正是针织服饰时尚的缔造者。近年来,国内电脑横机行业虽然出现了“百花齐放,百家争鸣”的局面
在数字电视领域针对多代机顶盒共存问题,节目需要同时以MPEG-2标清、H.264/AVC高清和H.265/HEVC超高清播出,造成了传输带宽紧张问题,限制了高清和超高清的普及。利用不同分辨
由于无线传感器网络一般部署在条件恶劣、无人看护的环境下,通常不具备自我保护的设备,因此,攻击者可以俘获部分传感器节点,通过对俘获节点进行分析破解一些机密信息,从而克