论文部分内容阅读
微博凭借其开放性、易操作、交互广泛逐渐成为网络社交的典型应用,对人们日常生活的影响越来越大。在社会网络中,用户的影响力不同,将对信息的传播产生不同的作用,进而同一个用户对不同话题的传播也产生不同的作用。因此,微博中用户影响力的分析尤其是面向话题领域与用户信息扩散能力的预测研究是近几年热点研究方向之一,具有重要的研究意义和实际价值。微博的使用产生海量的数据,其中噪声数据多、用户关系复杂、信息扩散随时间快速演化等特征对研究带来了巨大的挑战。本文的主要工作是从具有噪声的数据中提取用户属性与关系属性,分析用户在各个话题领域的影响力,找出高影响力的用户,同时利用数据挖掘与机器学习的相关方法和手段,分析并建立微博用户影响力动态预测模型,从而达到预测用户信息扩散能力的目的。本文的主要研究内容和创新点包括:(1)本文定义了微博用户影响力的含义并将影响力按静态与动态区分,并且使用用户所发博文的扩散广度和扩散速度度量用户信息扩散能力。(2)从采集到的Twitter用户数据中提取用户静态属性、行为属性、关系属性三大类属性,使用LDA模型对话题空间建模,计算给定话题数条件下,用户发布博文在各话题下的分布情况。本文提出基于话题的UAMR-InfluenceRank算法,同时考虑用户属性和关系网络,分析用户在各个话题领域中的影响力,并且在真实的Twitter数据集上验证了UAMR-InfluenceRank算法在计算Top-N用户影响力的排序结果上优于PageRank、TwitterRank等经典的高影响力用户挖掘算法,在准确率、召回率、F值的评价指标上,UAMR-InfluenceRank算法有了一定程度的提高。(3)本文采用数据挖掘的方法,对采集到的Twitter数据集进行数据预处理、体征提取等操作,从用户和博文这两个方面提取出反映用户动态影响力的相关特征,以xgboost算法作为基础模型,应用于多个特征群、多组参数、数据集分时条件下,借鉴堆结合策略的思想,提出多视角多参分时堆融合算法(Multi-View Multi-Parameter Time-Division Stacking Ensemble),以融合后的模型综合预测用户的信息扩散能力。通过真实的Twitter数据集验证了本文预测方法的可行性与有效性,证明根据用户历史信息学习特征并预测用户未来发布博文的信息扩散效果的方法是有效的。综上所述,本文从海量的微博数据中,综合考虑用户属性、多关系属性,研究了基于话题的用户影响力,并采用数据挖掘的方法对用户的信息扩散能力进行建模与预测,对于微博网络中舆情的分析与关键用户的挖掘工作具有重要的实际价值。