论文部分内容阅读
近几年,社交网络已成为人们获取消息的重要途径。人们可以在社交网络上发布简短的消息,其粉丝们可以转发或者评论这些消息,促使消息广泛传播。正是因为其快捷性,受到了全世界人们的喜爱。无论是在政治安全领域还是经济市场营销方面,信息传播预测研究都具有重要意义和应用价值。本论文共分为三个研究点:信息转发预测研究、用户影响力测量和预测研究以及信息流行度预测研究,主要工作和创新点包括: 1.信息转发预测研究的问题描述是:在社交网络中,给定某个用户的一条原创微博,预测其粉丝中谁会转发它。针对该预测问题而言,什么样的特征是有效的?为了探讨哪些特征在转发预测的过程中起关键作用,全面分析了51种特征,这些特征包括15种博主的用户属性、5种内容特征、15种粉丝的用户属性以及16种交互特征。信息转发预测作为一个二分类任务,实现并比较五种流行分类器的预测效果。通过比较五种分类器结合51种特征的表现,找到表现最佳的模型,又利用信息增益算法找到12种较为重要的特征。再利用不同分类器,结合这12种特征与全特征作对比实验,发现这12种特征取得与全特征几乎相同的预测精度,证明了选取特征的有效性。 2.在大数据环境下,测量并预测每个微博用户的个人影响力。在社交网络中,把一个用户的影响力限定为:具有使其他人对他发的消息做出转发或评论等反应的能力。根据这种理解,提出一种新的尝试测量用户的影响力。该测量方法既考虑了用户所发消息的数量,也考虑了消息的质量。这样,每个微博用户的个人影响力可以被计算得出,同时,也发现大多数人的用户影响力随时间发生变化,但是整体上变化不大。众所周知,事前的预测胜于事后的分析。为了更好地预测每个用户未来一段时间内的影响力,把该预测问题作为回归问题处理,同时详细地分析了19个统计特征、主题特征和用户过去的个人影响力。在提取主题特征的时候,提出的词语合并算法改善了LDA的输出。由于实验数据量巨大,用Spark实现三种流行的回归模型,在有无主题特征加入的情况下作对比试验。实验结果表明,在加入主题特征之后,所有回归模型预测用户影响力的能力明显提高。 3.基于大数据预测信息的流行度。为解决该问题,本工作共分为三个步骤。首先,量化一条微博的流行度。当浏览到一条喜欢的微博时,人们可以转发、评论或点赞它,这三种行为都是对该消息的反应,因此,以这三种行为数作为衡量一条消息流行度的标准。同时,考虑到微博流行度的分布波动很大,很难预测其精确值,而且大家往往关心流行度的量级而非精确的数值,故将此任务转化成多分类问题处理。接着,深入研究了关系到微博流行的作者用户属性、文本内容和时间特征等32种特征。最后,为在大规模数据集上进行对比实验,利用Spark实现三种常用的多分类模型:逻辑回归、随机森林和决策树。实验对比得出几个有意义的结论:决策树在预测信息流行度时表现最佳;时间特征是三类特征中预测能力最好的,接近全特征的效果,并且它们的计算简单,适用于大数据环境下的运算;预测多类别信息流行度的整体效果达到70%以上,这个实验结果对于实际应用有参考价值。