论文部分内容阅读
随着互联网普及率的逐年提升及社交网络的成熟,社交网络已然成为信息产生和传播不可或缺的途径。本文针对社交网络中信息流行度预测问题展开实证研究,主要工作内容和创新点如下:(1)对基于社交网络的信息流行度预测方法展开综述。由于目前与信息流行度预测研究相关的综述文献较少,经过对大量国内外文献资料的充分调研,本文对基于社交网络的信息流行度预测方法展开综述。首先概述了信息流行度预测的研究背景及意义,明确给出信息流行度相关定义并对相关理论机制进行简介;其次将主流预测方法归纳为三类,详尽阐释了各类方法的基本原理及相关研究成果;最后对三类预测方法的优劣势进行总结对比。(2)提出一种基于特征工程的流行度预测模型。本文通过探讨分析影响信息流行度的各种因素,提出一种基于特征工程的流行度预测模型。将预测问题形式化为信息流行度能否超过特定阈值的二分类任务,通过集成逻辑回归和随机森林,提出一种改进的分类算法DCA;遵循特征工程的基本流程,从用户、时间及内容三方面分析影响流行度的因素,人工地提取和构建与流行度相关的特征,进一步构建机器学习分类模型。通过实验验证了所提出的改进分类算法能够有效提升整体分类准确率,特征有效性及重要性分析实验证实用户特征为主导性特征。(3)提出一种基于时空注意力网络的流行度预测模型。为捕获信息传播过程中的底层结构以及用户交互行为间的依赖关系,本文利用深度学习以端到端的方式学习级联的潜在语义,提出一种基于时空注意力网络的预测模型STA-Net。利用基于传播路径的采样方法得到级联的序列表示,以嵌入的方式学得特定场景下的用户表示,利用循环神经网络捕捉序列中节点间的时序依赖性,结合注意力机制刻画各节点对后续传播的贡献。对于每个节点,将其所有邻居节点已融合时序信息的特征表示汇聚至自身以捕捉结构相关性,并引入多头注意力机制加强对结构信息的学习。相关实验验证了该模型各组成部分的必要性;相比于最先进的预测方法,该方法能够显著降低预测误差。所得模型完全依赖于级联中的时序和结构信息,从而避免大规模复杂的特征工程,且对于不同流行度预测场景均具有通用性。(4)设计并实现基于社交网络的信息流行度预测系统。根据上述研究成果,针对信息传播量预测以及流行信息检测两个实际应用点,本文设计并实现了一个社交网络信息流行度预测系统。