论文部分内容阅读
社交网络是由该网络的用户与用户通过一定的交流和互动而形成的一种复杂的大型关系网络。随着移动互联技术和社交媒体软件技术的快速发展,对社交网络中信息传播产生影响的因素也发生了很大变化,对社交网络的信息传播展开分析与挖掘,在热点发现、产品营销、舆情管控等应用方面有重要的现实意义。微博作为重要的社交网络平台,从发布至今,迅速以其内容简洁、交互方便、传播迅速等特点,成为人们分享、获取和传播信息的重要载体。微博转发是微博平台信息传播的重要机制,它使信息呈现爆炸式的扩散效果。因此,对用户的转发行为进行预测显得尤为必要。转发行为预测的挑战在于如何找到更多有价值的影响因素以提高预测性能。本文对影响微博转发的用户特征进行了深入的分析,总结出了影响力特征、话题特征、活跃度特征、兴趣特征四大类特征组成的用户扩展特征集合。分析结果显示,微博被转发率、用户转发的活跃性、用户之间的交互强度等特征具有较强的区分特性,而反观用户的粉丝数、关注数、PageRank值等特征则区分特性不明显。基于本文的用户特征集合,对朴素贝叶斯算法原理进行剖析,对分类器的构造过程进行推导,为了弥补朴素贝叶斯算法本身具有条件独立性假设限制的不足,本文采用了新的属性加权方法进行算法改进。同时,根据训练数据集划分的随机性特点,提出了训练集中存在较优训练子集的初期假设。采用增量优化的方法,获取具有更高预测性能的优化训练数据集。在爬取的真实社交网络新浪微博数据集上开展系列实验,实验结果表明:(1)对比其它研究中的特征集合,使用本文中的用户扩展特征集合,各分类预测算法的性能指标都有一定幅度的提升,验证了特征分析提取方法的有效性;(2)改进的属性加权朴素贝叶斯算法最高预测准确率高达93%,与原有算法相比,预测准确率提高了8%,达到了实验的预期效果;(3)通过增量优化实验,找到了较优的样本训练集合,使用该集合能进一步提高预测的性能和效果,验证了初期的假设。