论文部分内容阅读
随着互联网技术的发展和在线社交网络的普及,社交媒介中存在着由大量用户生成的带有情感观点的信息。用户可以通过发布、浏览、转发、点赞和分享信息等行为去影响周围的人,从而促进用户间的信息传播和扩散。在不同的情感极性上分析用户间的信息能否发生传播是舆论形成和病毒式营销的一个关键问题。已有工作将用户间的信息传播直接定义在用户对上,而当两个用户对包含同一影响发起者或接受者时,无法刻画用户对之间的关联关系,造成用户间传播概率学习过拟合的问题。此外,目前尚无针对不同情感极性用户间的传播概率建模的有效方法。因此,针对上述问题,本文开展了以下三个研究工作:第一,针对现有相关工作将传播概率定义在网络连边上的独立性假设,这样对于未能观测到的用户对会导致参数学习过拟合的问题,本文提出了一种融合情感因子的用户信息传播模型。该模型假设影响用户信息传播的主要因素是传播者的影响力和接受者的易感性,定义两个参数矩阵分别对它们进行表示,并利用生存分析模型和情感帖子被转发过程形成的级联对用户间的传播进行建模。实验结果表明,该模型在各个任务上的评价指标均比定义在用户对上的pair-wise方法有了大幅度提升,并且有效地降低了模型的复杂度。第二,针对观测到的级联中存在正负例严重不平衡问题,这可能会误导已提出的融合情感因子的用户信息传播模型的优化方向和限制模型应用于大数据集的扩展性,本文提出了一种基于负采样算法的情感信息传播模型。该模型根据负例在数据集中出现的频率,在每次迭代中进行重复地概率采样,从而保持优化过程中正例和负例的平衡。实验结果表明,与先前提出的模型对比,该模型不仅在“预测级联动态”和“谁将会被转发”任务上MRR指标有了较大的提升,而且能够有效地刻画用户在不同的情感极性上所表现出的不同影响力和易感性。第三,考虑到用户情感信息所涉及的话题也是影响传播概率不可忽略的因素,本文在原有方法基础上,提出一种融合话题因子的情感信息传播模型。该模型利用LDA模型学习出文档的话题分布,然后将话题分布融入到用户的影响力和易感性矩阵来调整用户间的传播概率,进而预测用户在潜在网络下对不同话题和情感极性消息的转发行为。实验结果表明,与同类模型对比,该模型不仅在不同的评价任务上均具有良好的表现,而且能够更好地刻画信息传播的趋势,很好地验证了该方法的有效性。