论文部分内容阅读
随着互联网的快速发展,整个社会已经全面进入了信息时代。越来越多的人加入到了网民的队伍,也越来越多的人愿意在网络中表达自己的真实情感,发表自己的个人看法。产品评价、实时热点新闻评论、商家服务评价这些都准确的反映了网民对评价主题肯定或否定的情感态度。识别和提取这些情感倾向信息,非常有助于商家产品回馈改进和政府的舆情监管等工作。而随着大数据时代的到来,信息量剧增,使得这些评论信息已经不能再使用传统人工的方法进行提取和分析。因此,针对网络文本的情感倾向性分析具有重大的研究价值。文本情感分析的主要目的是为了挖掘文本的情感信息,判断文本表达的情感极性。文章主要的研究内容如下:(1)提出了一种新的词性情感特征提取方法。首先对带有情感极性的语料句按词法规则找出所有带有情感倾向的词性特征,然后通过词性最大匹配算法依据情感识别准确率和占有率提取词性情感特征,最后使用提取的词性情感特征与现有的词性特征提取方法进行对比实验。实验表明,新的词性情感特征提取方法有效的提升了基于情感词典分析文本情感的准确性。(2)提出了一种基于词典语义和SVM结合的分类算法。首先使用高准确度的词典分析算法得到部分准确的分类结果;然后把得到的分类结果用于SVM分类训练,并通过训练的分类器对剩下的文本进行情感分类;最后将词典语义分析和SVM分类结合得到最终的文本情感分析结果。文章将该方法和现有的几种分类方法对产品服务、实时热点新闻和影视著作三个领域的评论语料进行实验对比分析。实验表明,基于词典语义和SVM结合的分类算法比基于情感词典的分析方法和基于支持向量机的分类学习方法都有更好的情感识别判定效果,而相比已提出的基于情感词典和机器学习相结合的方法在情感识别准确度上也有一定提升。(3)实现了一个网络文本情感分析系统。通过现有的分析算法和本文提出的文本情感分类算法,设计和实现了一个集网络文本数据获取、数据处理和数据分析为一体的网络文本情感分析系统。该系统能够快速实时地对在线网络评论文本进行情感分析,具有很大推广应用价值。