论文部分内容阅读
微博(Micro Blog)自引入国内以来,快速成长为核心社交平台,用户通过微博表达和分享自己的情感与观点。研究微博情感分析,有利于政府的民意调查、舆情监测和管理,商业满意度调研等应用,另外微博与传统文本差异性比较大,对自然语言处理技术提出更高的挑战。目前国内中文微博的情感分析研究尚处于起步阶段,还有大量的问题需要深入讨论研究。因此,研究微博的情感分析具有较高的学术理论价值和实际应用价值。这篇论文对所研究的中文微博情感分析的关键技术进行介绍,主要包括中文微博情感词典构建、微博情感分析特征产生与选择、微博情感分类器等关键技术。在微博情感词典的构建方法研究方面,主要包括微博基础情感词典、微博表情符号情感词典和微博网络用语情感词典。根据三类情感词典的不同特点,提出相应的构建方法,并将其运用到微博情感分析。实验表明,利用情感权值的和作为分类依据(SO-A),对微博语料的分类微平均(micro-average)可达到78.61%;而利用情感词的极性作为分类依据(SO-P),分类微平均为70.76%。在混合语料环境中,(SO-A)分类微平均(micro-average)为79.88%,(SO-P)分类微平均为71.75%。说明本文构建的情感词典,在情感词的选择、情感极性的判断和权值的计算都是有效的,情感词典的质量比较高,可直接应用于微博以及其他类型的语料情感分析,并且具有分类效果好、过程简单和性能稳定的优势。在微博情感的特征产生与选择以及分类器研究方面,主要介绍基于朴素贝叶斯微博情感分析情况,针对微博短文本的特点,将微博视为单一观点和观点分割两种情况进行分析;研究了CHI统计方法、情感词典和句法路径结合情感词典3种方法;选用词频、BOOL值、TF-IDF三种方法进行权值计算。分类结果发现,在单一观点情况下,获得最高的微平均75.69%;在观点分割情况下,分类最高微平均78.63%,表明了观点分割可取得较好的微博情感分类效果。在利用朴素贝叶斯进行微博情感分析时,采用BOOL权值和结合句法路径与情感词典的二次提取可取得较好的效果,因此总结出最优的预处理方式是“观点分割+二次提取+BOOL权值”,可达到微平均78.63%;另外,在混合语料(微博语料与产品评论混合)环境下,探讨了海量网络文本(微博与评论)的情感分析。实验发现,利用情感词典的分类性能(微平均79.88%)比朴素贝叶斯(微平均67.8%)好,并且具有简单、快速和稳定的优势。