论文部分内容阅读
近年来,随着Web 2.0和移动互联网的飞速发展,互联网上涌现了大量的社交网络平台。微博作为其中一种社交网络平台,以其高便捷性、高原创性、强交互性和强草根性的特点吸引了大量用户,成为人们生活中获取与分享信息的重要平台。研究如何及时准确地预测微博未来的流行趋势,对内容推荐、广告营销以及舆情监控等领域都具有重要意义。本文以新浪微博为研究对象,对微博流行趋势预测进行了研究,具体工作如下:1.分别分析了内容、时序和网络这三类因素对微博转发过程的影响。实验结果表明,不包含链接的微博更容易被转发;微博中提及的人数越多,其最终转发数的分布范围越小,且转发数都比较少;不同时间段发布的微博,其最终转发数差别较大;微博最终转发数与其最小转发时间间隔之间存在一定的负相关性;初期曝光量较小的微博,其最终转发数的分布范围也较小,且大部分的转发数都较少;微博最终转发数与其早期转发网络的链接密度之间近似呈现负线性相关。2.分析了现有研究中常用微博特征存在的不足,然后在此基础上从微博的内容、时序和网络三个方面提取了一系列新特征,将新特征与常用特征相结合,对逻辑斯蒂回归、朴素贝叶斯、支持向量机和随机森林等分类模型进行训练并对目标微博的流行度范围进行预测。实验结果显示,在加入本文提取的新特征后,这四种模型的预测正确率分别提高了1.91%,14.80%,2.92%和6.92%。3.将提取的微博特征应用到基于相似度的微博流行趋势预测方法中,给出了基于加权马氏距离的微博相似度计算方法,根据提取的微博特征选取与目标微博最相似的6)条历史微博,将其加权平均流行度作为目标微博的最终流行度。在此基础上,还利用粒子群算法对选取的历史微博数量和特征权重进行了优化。实验结果显示,与仅使用常用特征时的最优结果相比,相对绝对误差降低了0.0801,正确率提高了9.00%;与未经过粒子群算法优化的方法相比,相对绝对误差降低了0.0640,正确率提高了6.00%。