论文部分内容阅读
微博情感分析可以广泛应用于舆情监控、用户体验收集等领域,同时微博具有短文本、社交化等特殊的文本特性,因此基于中文微博的情感分析与情感要素抽取,成为中文自然语言处理领域中的一个重要研究方法。传统的基于词典或机器学习理论的文本情感分析方法缺乏对微博短文本等特征的适应性,本文引入基于中文微博的情感分析词典,研究了基于微博情感分析词典与特征组合的改进的支持向量机情感分类方法,并将条件随机场理论和句法依存关系分析相结合,从而达到精确抽取微博情感要素的目的。本文提出的基于微博情感分析词典与特征组合的情感倾向性判断方法充分结合了依赖词典和依赖机器学习理论的两种情感倾向性判别算法,而将条件随机场理论应用于传统的基于句法依存分析的情感要素抽取方法,在一定程度上减少了微博的短文本和口语化特征对句法依存分析带来的干扰。本文主要研究工作如下所示:(1)首先,介绍了中文微博的文本特征与社交网络应用环境,在此基础上总结了目前为适应中文微博文本特性对传统文本情感分析的改进方法。(2)其次,引入了基于微博的情感分析词典,提出了对其中情感词极性值的计算方法。综合使用情感分析词典中的情感词典、影响因子词典,计算整篇微博的情感得分,并获得其最终的倾向性。(3)使用已知情感词和句法依存关系分析来抽取微博评价对象和微博新情感词两项情感要素,并且将条件随机场原理引入句法依存关系分析,设计并实现了两者相结合的情感要素抽取系统,能够有效地检测评价对象和新情感词。(4)在上述(2),(3)两部分的基础上,将微博的各类语言特征的组合引入到传统的基于支持向量机的情感分类算法中,并结合第二部分对整篇微博情感值的计算过程,尝试使用不同的方式构建情感特征,使情感分类结果更精确。该算法同时考虑了以不同情感分类策略和特征选择算法进一步改善分类性能。