论文部分内容阅读
微博是一个基于用户关系的信息获取、分享及传播的重要平台。近年来,微博得到迅速普及和发展,参与人数越来越多,吸引了众多领域的学者对其进行研究。由于微博是种新兴的在线社会网络,且具有用户规模大、话题更新频繁、信息传播迅速和影响范围广泛等特点,所以其相关研究工作具有很大挑战性。本文以新浪微博为研究对象,对话题传播中的用户影响力进行深入分析,重点研究了信息传播、用户属性及微博主题三方面因素对其影响,并据此提出了一种新的微博用户影响力分析算法。本文研究成果可为微博网络中的舆情监控与追踪提供借鉴和参考。具体来讲,本文工作主要有以下三点:(1)建立了一种基于社交关系和用户行为的话题传播网模型。结合系统推送和用户行为两种微博信息传播机制,话题传播网模型首先利用节点间的社交关系和用户转发行为分别构建信息收听网和信息转发网,然后将信息转发网映射到信息收听网中,通过设置边的权值反映节点间信息交流的频繁程度。模型有效解决了信息收听网难以描述用户行为的问题,能够准确刻画话题传播过程,并量化表示用户所起的推动作用,为进一步分析用户影响力奠定基础。(2)提出了一种基于个人属性的用户影响力回归分析方法PBF。该方法首先利用信息传播特征对用户影响力进行度量,然后结合个人属性特征对其进行回归分析,找出最能反映用户影响力的重要属性,进而利用这些属性对用户影响力进行分析预测。PBF方法有效解决了微博个人属性繁杂导致的用户影响力指标体系客观性不强的问题,使基于个人属性的用户影响力分析结果更为准确。实验表明,PBF方法有效提高了特定话题中用户影响力分析的准确性,其排序结果与实测值相关性最高可达89.6%。(3)设计并实现了一种基于话题传播的用户影响力分析算法TS-InfluenceRank。该算法基于话题传播网模型,借鉴PageRank算法基本思想对微博用户影响力进行计算。针对PageRank、LeaderRank没有考虑节点差异性而平均分配转移概率的不足,TS-InfluenceRank算法通过分析节点属性以及节点与话题的主题相关性,使节点间的随机转移具有一定属性偏向性和主题偏向性,提高了算法的准确性。针对PageRank、TwitterRank遇到的算法收敛性和采集器陷阱问题,该算法通过引入超级节点,使冲浪者随机跳转的概率能够根据节点不同进行自适应调节,并且在保证算法收敛性的同时有效提高了对采集器陷阱的鲁棒性。实验表明,在面向话题的用户影响力分析方面,TS-InfluenceRank算法性能较LeaderRank、TwitterRank、PageRank及In-degree均有不同程度提高,与LeaderRank相比,排序序列相关性和影响力占比最高分别提升13.9%和7.2%,显著提高了用户影响力分析的准确性和有效性。