论文部分内容阅读
情感分析在当前社交网络大数据分析研究中是一个热门方向,当前社交网络情感分析可分为两个研究方向,一是基于情感词典的情感分析,二是无词典的情感分析。基于情感词典的情感分析通过不断优化情感词典可有效地高情感分析的准确率,而无词典的情感分析往往准确率较低且分析成本高。在基于情感词典的情感分析领域,情感词典是情感分析的基石,因此,如何构建高效的情感词典是一个情感分析的重要研究方向。传统情感分析使用的是通用情感词典,权威的通用情感词典如台大的NTUSD,知网的HowNet情感词典,这类词典的情感分类较为单一,仅仅分出了积极、消极两类或积极、消极、中性三类,这种分类方式在当前社交网络多变的话题和人类复杂的情感维度下,无法充分满足情感分析的需要。此外,社交网络不同话题下情感词存在“一词多义”问题,这也为通用情感词典在情感分析中的运用带来挑战。针对传统情感词典的部分问题,本文出一种基于谱聚类的特定话题下情感词典自构建模型SDSC(construct Sentiment Dictionary based on Spectral Clustering),该模型从构建词典的数据集来源入手,解决不同话题下的“一词多义”问题。SDSC模型中包含热门文本筛选模型FT模型(Filter Text model)、情感关系无向图构建模型CRM模型(Construct sentiment Relationship graph model)、谱聚类分类模型(Spectral Clustering model)以及相关计算方法和理论述。对此,论文主要工作如下:1)出了热门文本筛选FT模型。FT模型根据每条评论的转发量、点赞量、评论数以及单位时间内这些互动行为的增量,筛选出有用评论作为情感词典构建的数据集。2)出了情感关系无向图构建CRM模型。CRM模型将情感词之间的情感相似度作为边的权值,情感词作为节点构建特定话题的情感关系无向图,情感词之间的情感相似度包括基础情感相似度、话题情感相似度和同义词情感相似度。3)出了谱聚类分类SC模型。SC模型采用谱聚类算法将情感关系无向图分为三个子图和五个子图,并通过中心词探测的相关计算方法识别每个子图的中心词,最终输出情感词典。4)综合上述三种模型,出基于谱聚类的特定话题下情感词典自构建模型SDSC模型。5)仿真实验证明,SDSC模型构建的情感词典有较高的准确率,同时该模型简单、灵活、高效,能较好的构建领域性情感词典,解决领域相关情感词的问题,高情感分析的准确率。