论文部分内容阅读
二十一世纪以来,中国互联网行业得到了蓬勃的发展,网民规模也逐年攀升。微博是近年来互联网上越来越流行的消遣方式,上到政商名流,下至普通百姓,皆乐在其中,微博已逐渐变成了许多人生活中不可缺少的元素。新浪微博平台每天都产生了数以亿计的微博来分享内容、传播信息,这庞大的用户量和数据量背后伴随而来的则是潜藏的商业、社会等多方面价值。 对微博进行情感分析的研究,就是发掘微博潜藏的商业、社会等多方面价值的过程,研究微博情感分析能应用于舆情发现及监控、信息预测、产品评价及改进等领域。深入研究微博内容、获取微博情感倾向是非常有必要的。 目前的微博情感极性分类方法存在着准确率较低、依赖领域知识、较少考虑句内句间关系等缺点,我们的研究希望找到一种方法使分类准确率能得到提高,方法的普适性能得到加强。基于此出发点,本文对结合情感词典与规则的微博情感分析方法进行了研究,主要内容包括以下两个部分: (一)本文通过构建情感词典,获取语义规则,以情感词为中心,归纳了6种情感词组合,兼顾情感词、否定词、程度副词之间的相互作用,结合情感词典与规则,运用微博子句情感值、整句情感值计算方法,最终实现了微博情感极性分类。实验表明,本文提出的方法比表情符号判别法、情感词典判别法、SVM判别法等方法的微博情感极性分类效果都好。 (二)本文在(一)的基础上,研究转折连词对微博情感表达的影响,从转折连词的4种一般使用情形,考虑微博的句内关系、句间关系,引入转折连词权重系数来改进(一)的微博子句情感值、整句情感值计算方法,提升微博情感极性分类效果。实验表明,考虑转折连词的方法比之前方法分类效果得到了提升。整体实验对比验证了本文所提出的方法不依赖领域知识,普适性较强,准确率较高。