论文部分内容阅读
微博已经成为人们分享、传播和获取信息的平台。很多的热点话题、敏感话题以及谣言等首先从微博引起,其中的不良信息对社会造成了很大的危害。因此如何在海量的信息中发现热点话题、敏感话题,挖掘出信息传播过程中的关键用户并加以疏导,已成为舆情监管部门关注的热点。本文针对现有的微博话题层次用户影响力分析方法中存在话题获取以及话题中关键用户发现不准确的问题,通过动态聚类算法获取相关话题,从三个方面衡量用户影响力,从而发现关键用户。本文研究成果可为网络舆情监控与追踪起到保障和监督作用。主要工作包括以下几点: (1)通过动态聚类算法获取微博话题。采用《知网》中词语语义相似度的计算方法获取微博短文本之间的相似度,解决了微博短文本关键词频过低导致文本间相似度计算不准确的问题。依据微博之间的相似度矩阵,建立一种改进的k-means算法对微博文本进行聚类,实验结果表明本文算法聚类结果具有较高的耦合性和紧凑性。 (2)在话题层次,根据信息之间的转发关系和用户之间的关注关系构建话题传播网络, 在该网络中借鉴PageRank思想,实现了一种TDN-If算法得到话题传播网络中的影响力用户,该算法与RepostRank、TweetRank,In-degree和TweetNum算法相比,表现出了较高的准确率和召回率。 (3)建立了一种话题层次用户影响力度量模型。首先分析了传统影响力指标与用户影响力的关系;然后分析用户的属性特性、行为特性以及信息传播特性对用户影响力的影响,进而给出本文的影响力指标:用户微博价值影响力、用户活跃度影响力、信息传播影响力,并分析这三个指标与用户影响力的关系;最后融合上述三种指标建立一种用户影响力度量模型。实验结果表明,本文给出的三个影响力度量指标与用户影响力关系更密切。