论文部分内容阅读
随着互联网的快速发展,人们的生活方式有了很大的改变。从原来的静态网页到现在的微博,微信,交流平台日渐完善,信息技术完全把我们带到了一个以用户为中心的年代。然而随着生活质量的提高,生活节奏也渐渐加快,更多人喜欢在微博平台发布信息量小,格式随意,实时互动的微博信息,这种快捷方便的交流方式不仅符合了当代互联网的发展,也渐渐影响了我们的生活。由于微博使用方便,传播广泛,关于微博内容方面的情感分析研究也渐渐成为研究热点。在情感分析的研究中,还存在领域的依赖问题,情感语义理解问题,特征提取问题,特征数量与召回率方面的制约问题,本文在前人研究基础上,深入研究面向微博文本的情感分析,论文介绍了情感分析的主流方法,字典方法与有监督的机器学习方法,通过研究有监督的机器学习方法,发现传统的特征提取方法采用较为单一的方法,不能很好的召回信息文本,通过研究发现粗糙集理论可以根据集合本身的特征进行特征选择,对文本的情感分类具有较好的分类效果,本文首次在中文微博文本情感分析中加入粗糙集理论,应用粗糙集理论与现有特征选择算法结合进行特征选择,提出基于粗糙集的特征选择算法:基于信息增益与粗糙集的特征提取算法IGRough,和基于χ2统计(CHI)与粗糙集的特征提取算法CHIRough,并与信息增益(IG)的特征提取算法进行对比实验,试验的结果表明基于粗糙集属性重要度的混合特征提取算法相比信息增益算法具有明显的优势,在F-值方面有明显提升。同时通过研究其他机器学习方法,发现随机梯度下降算法(SGD)具有比支持向量机更好的分类效果,而最大熵分类算法与岭回归分类算法也是一种极具研究价值的机器学习算法。根据以上研究将多种分类算法与特征选择算法组合,试图找到最优的微博情感分析模型。本文的最后,给出情感分析在舆情分析方面的实例,通过对微博情感的分析,可以及时的掌握大众对某一热点事件的态度,及时发布消息,有利于消除不良舆论。