论文部分内容阅读
伴随着信息爆炸式的增长,数据、信息和知识已经产生新的经济结构。与此同时,社交网络也随着人类的活动变得异常复杂。目前,已经存在很多成熟的社交网络分析算法,然而,很多算法不能应用于现在的大规模数据,其中,影响力用户分析算法也面临同样的问题。影响力用户分析的主要目标是找出社交网络中的权威度最高的用户。通过对社交网络的深入分析,挖掘用户的自身特征以及利用社交网络的特征,利用这些特征对用户之间的关系强度进行建模,从而得到用户之间的关系强度。但是,用户之间的关系强度不能作为影响力用户的评判标准。为了得到社交网路中的影响力用户,经常会使用一些排名算法,迭代计算网络中结点的权威值,从而得到影响力用户。在线社交网络中,用户之间的关系强度不仅取决于用户之间的相似度,还取决于用户之间的交互频率。用户之间交互越频繁,用户之间的关系强度越大。用户之间的交互,构成了社交网络中的用户交互图。用户交互图更能体现出社交网络的基本特征。本文中,我们分析了Twitter社交网络的影响力用户。Twitter用户可以发布消息,关注用户还有用户间的交互,这些数据构成了异构数据。如何有效地利用网络局部信息和网络整体信息是影响力用户分析的关键。本文中我们采用了一种新的框架,即利用网络的局部信息(关系强度)又利用了网络的全局信息(有向边)。为了有效地衡量用户之间的关系强度,我们提出了基于泊松分布的潜在变量模型用于推断用户之间的关系强度,同时利用梯度上升算法求得模型中的参数。通过学习关系强度和分析影响力用户,我们分别在关注图和转发图上进行了实验,实验结果表明我们提出的算法在要优于其余的现有算法。