论文部分内容阅读
如今,人们更习惯通过社交网络来了解时事,发表观点。随着微博的逐渐普及,越来越多的用户开始关注并使用微博,微博成为目前最流行的网络平台。微博话题为人们讨论热门事件提供了极好的平台。微博话题可以为目前的情感分析和舆情分析等研究提供大量有效的数据,因此针对微博话题的研究也是目前的研究热点。本文主要利用微博话题数据实现对民众的情感计算和舆情分析。传统的情感计算方法是借助情感词典、规则和利用机器学习完成。本文则将情感词典和机器学习相结合完成对微博话题情感的分析。针对传统微博情感分析仅仅考虑微博文本内容的不足,本文将表情符号考虑在内,对微博话题的情感计算从微博文本情感分析和微博表情符号情感分析两个方面进行。首先选择中文情感词汇本体库作为文本情感词库,利用朴素贝叶斯算法完成微博文本部分的情感计算。然后基于FP增长算法和检索距离建立表情符号聚类算法,由此建立表情符号库作为表情符号情感库,同样利用朴素贝叶斯算法计算微博中表情符号部分的情感,最终将两者融合获得微博话题情感。实验结果表明本文将表情符号考虑在内的微博话题情感倾向计算方法对微博情感倾向分析更加准确。本文微博话题舆情演化分析思想是将计算出的微博情感倾向与微博话题的扩散度结合得到微博话题的舆情值,再进一步完成微博话题舆情的演化分析。微博话题的扩散度是根据微博话题的转发量、点赞量和评论量计算的,其中微博的转发量是通过基于逻辑回归模型的微博转发预测得到的,将通过转发预测模型计算出的结果高于50%的用户数作为微博话题的转发量。微博话题舆情演化分析是将时间考虑在内,对微博话题进行时间片划分,并通过改进传统主题模型LDA模型建立微博主题模型MTLDA,根据MTLDA计算每个时间片主题。最后基于KL距离计算相邻时间片主题关系,并分析出随着时间推移微博话题舆情的演化情况。通过对多个话题进行实验,结果表明本文对于微博话题舆情分析的方法更加准确,更具有时效性。