论文部分内容阅读
社交网络的开放性和互联性,造成了社交网络中信息来源广泛,更新速度快。在海量的社交消息中,最终只有一小部分会引起人们的兴趣和关注,最终流行或爆发,造成巨大的社会影响,甚至引导社会舆论的走向。因此,预测消息的流行和爆发,对于信息过载的管理和舆情观点的分析具有重要意义。但是,在消息传播的早期,及时准确地预测社交消息的流行和爆发是困难的。首先,社交网络结构不是固定的,会随着用户群体的行为发生改变,而且消息的传播受到社交网络内部和外部环境的共同影响,使得其中影响消息传播的特征难于区分和选择。第二,社交网络中消息流行和爆发内在的随机性,限制了算法的预测能力,而传统的点过程方法又缺乏一定的灵活性;第三,社交网络的多样性,如学术引用网络,微博粉丝网络,微信朋友圈等,对预测模型的泛化能力提出了很高的要求;第四,爆发预测问题的时效性较高,导致消息传播的可观测时间较短,能够获取到的消息传播的历史知识十分有限,在一个充满噪音的环境中,要判别爆发消息特有的传播模式,进而准确地进行预测是一件十分困难的事情。本文针对上述挑战,从影响消息传播的静态特征和动态特征入手,利用深度神经网络学习消息传播响应时间序列中蕴含的特征模式,较好地解决了消息爆发预测中的特征选择、模型泛化、预测时效性和准确性的问题。主要的贡献如下: 针对社交网络上消息爆发预测的特征难于区分和选择的问题,本文提出了话题敏感的高影响力传播者发现算法(tsk-shell)。tsk-shell算法从社交网络的拓扑结构入手,引入基于内容分析的传播影响力,通过联合建模消息内容、用户历史行为等可能对消息传播产生重要影响的因素,学习社交网络中用户对之间的转发概率,将用户的兴趣偏好和网络结构两种异质关联的信息有效的融合起来,发现话题敏感的高影响力传播者,从而提升了传统k壳(k-shell)算法发现高影响力传播者的能力。在真实Twitter数据集上实验表明,在发现top k高影响力传播者任务中,tsk-shell比k-shell的性能平均提高了约40%,证明了tsk-shell算法的有效性。 针对社交网络上消息爆发内在的随机性和模型泛化问题,提出了LSOP(LearningSequential features for Outbreak Prediction)模型。LSOP直接建模消息传播的时间动态特征,即用户响应时间,认为各种随机因素对消息传播的影响最终会体现在消息传播的用户响应时间序列之中,因此,与基于传统机器学习的模型相比,避免了繁琐且低效的特征工程;提出三种不同的响应时间序列编码方法,利用基于门的RNN(Recurrent NeuralNetworks)的结构优势,自动学习用户响应时间序列中蕴含的诸如富者愈富,时间衰减等长距离的关联依赖,生成有意义的消息响应时间序列表达,更好地进行消息爆发的预测。与人工定义特征方法和点过程方法相比,LSOP是一个完全数据驱动的方法,具有较强的灵活性,能较好地适用于不同的社交网络,有较好的泛化能力。实验表明,LSOP可以在消息传播的早期(1个小时以内),以较高的F1值预测社交消息是否爆发,在新浪微博和Twitter数据集上的实验表明,LSOP比最好的基准方法的F1分别提高了约8%和3%。 针对之前的点过程方法没有考虑到用户响应时刻背后的差异性问题,提出了AROP(Attention based Recurrent neural network model for Outbreak Prediction)模型。AROP将消息传播的时间序列动态特征和传播上下文等静态特征结合起来,在建模消息用户响应时间序列的同时,考虑到用户响应时间序列背后不同时刻的转发用户影响力存在巨大差异。注意力机制可以用来区分RNN不同输入时刻的重要程度,因此,AROP利用注意力(Attention)机制,结合消息话题内容、消息作者,转发用户影响力等传播上下文信息来区分不同转发时刻的重要程度;同时,AROP提出了一种用户和时刻的向量表示方法,将消息传播的时间周期性和用户的兴趣偏好建模到模型之中。在新浪微博和Twitter数据集上的实验表明,AROP模型的性能超过包括LSOP在内的基准方法,具有较高的准确性和时效性。