社交网络上的消息爆发预测研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:zhensa9d
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社交网络的开放性和互联性,造成了社交网络中信息来源广泛,更新速度快。在海量的社交消息中,最终只有一小部分会引起人们的兴趣和关注,最终流行或爆发,造成巨大的社会影响,甚至引导社会舆论的走向。因此,预测消息的流行和爆发,对于信息过载的管理和舆情观点的分析具有重要意义。但是,在消息传播的早期,及时准确地预测社交消息的流行和爆发是困难的。首先,社交网络结构不是固定的,会随着用户群体的行为发生改变,而且消息的传播受到社交网络内部和外部环境的共同影响,使得其中影响消息传播的特征难于区分和选择。第二,社交网络中消息流行和爆发内在的随机性,限制了算法的预测能力,而传统的点过程方法又缺乏一定的灵活性;第三,社交网络的多样性,如学术引用网络,微博粉丝网络,微信朋友圈等,对预测模型的泛化能力提出了很高的要求;第四,爆发预测问题的时效性较高,导致消息传播的可观测时间较短,能够获取到的消息传播的历史知识十分有限,在一个充满噪音的环境中,要判别爆发消息特有的传播模式,进而准确地进行预测是一件十分困难的事情。本文针对上述挑战,从影响消息传播的静态特征和动态特征入手,利用深度神经网络学习消息传播响应时间序列中蕴含的特征模式,较好地解决了消息爆发预测中的特征选择、模型泛化、预测时效性和准确性的问题。主要的贡献如下:  针对社交网络上消息爆发预测的特征难于区分和选择的问题,本文提出了话题敏感的高影响力传播者发现算法(tsk-shell)。tsk-shell算法从社交网络的拓扑结构入手,引入基于内容分析的传播影响力,通过联合建模消息内容、用户历史行为等可能对消息传播产生重要影响的因素,学习社交网络中用户对之间的转发概率,将用户的兴趣偏好和网络结构两种异质关联的信息有效的融合起来,发现话题敏感的高影响力传播者,从而提升了传统k壳(k-shell)算法发现高影响力传播者的能力。在真实Twitter数据集上实验表明,在发现top k高影响力传播者任务中,tsk-shell比k-shell的性能平均提高了约40%,证明了tsk-shell算法的有效性。  针对社交网络上消息爆发内在的随机性和模型泛化问题,提出了LSOP(LearningSequential features for Outbreak Prediction)模型。LSOP直接建模消息传播的时间动态特征,即用户响应时间,认为各种随机因素对消息传播的影响最终会体现在消息传播的用户响应时间序列之中,因此,与基于传统机器学习的模型相比,避免了繁琐且低效的特征工程;提出三种不同的响应时间序列编码方法,利用基于门的RNN(Recurrent NeuralNetworks)的结构优势,自动学习用户响应时间序列中蕴含的诸如富者愈富,时间衰减等长距离的关联依赖,生成有意义的消息响应时间序列表达,更好地进行消息爆发的预测。与人工定义特征方法和点过程方法相比,LSOP是一个完全数据驱动的方法,具有较强的灵活性,能较好地适用于不同的社交网络,有较好的泛化能力。实验表明,LSOP可以在消息传播的早期(1个小时以内),以较高的F1值预测社交消息是否爆发,在新浪微博和Twitter数据集上的实验表明,LSOP比最好的基准方法的F1分别提高了约8%和3%。  针对之前的点过程方法没有考虑到用户响应时刻背后的差异性问题,提出了AROP(Attention based Recurrent neural network model for Outbreak Prediction)模型。AROP将消息传播的时间序列动态特征和传播上下文等静态特征结合起来,在建模消息用户响应时间序列的同时,考虑到用户响应时间序列背后不同时刻的转发用户影响力存在巨大差异。注意力机制可以用来区分RNN不同输入时刻的重要程度,因此,AROP利用注意力(Attention)机制,结合消息话题内容、消息作者,转发用户影响力等传播上下文信息来区分不同转发时刻的重要程度;同时,AROP提出了一种用户和时刻的向量表示方法,将消息传播的时间周期性和用户的兴趣偏好建模到模型之中。在新浪微博和Twitter数据集上的实验表明,AROP模型的性能超过包括LSOP在内的基准方法,具有较高的准确性和时效性。
其他文献
自二十世纪六十年代以来,计算机动画发展迅速,其中的人脸表情动画是动画领域的重要组成部分。而传统的表情动画的自动生成方法耗时耗力,低成本的表情动画的自动生成方法一直是研
二十世纪九十年代出现的分布式对象技术,为网络软件的开发提供了强有力的解决方案。分布式对象技术是将面向对象技术与网络通信技术有机结合而发展形成的,主要是指在网络计算平
随着通信技术的迅速发展,Internet网络用途的扩大,网络规模也随之加大.大规模的网络要求高性能的互连设备,因此网络设备的性能问题越来越为广大网络建设者所重视.为了公正,客
面向对象分析是面向对象软件工程的一个组成部分.它通过类和对象模拟现实世界的实体属性及其行为的分析,发现现实世界系统的层次结构.面向对象分析方法还揭示了可以通过对象/
表情是人类表达情绪的一种基本方式,是非语言交流中的一种有效手段。心理学家认为,情感的表达7%通过语言,38%通过语言的辅助信息(如讲话的节奏,声音频率及语调轮廓等),55%则通过面部表
该文设计的异构数据库查询系统的体系结构是使用联邦数据库和数据仓库以外的第三种方法:中间件技术,在各种异构数据源和相应的接口上建立了一种新的数据模型,可以利用该模型
本论文研究数据挖掘的典型理论和一些急待研究、发展的课题,并将研究重点放在非频繁关联规则挖掘上。 简单的说,数据挖掘是从大量数据中提取或挖掘知识。 数据挖掘是计算
该文论述我们自行研究开发的一个并行数据仓库系统PARAWARE的核心技术--多维数据的存储、查询和维护的理论研究和系统实现.该文共分四个部分.第一部分介绍了数据仓库和联机分
上世纪80年代提出的人机交互技术着重强调了以人为中心的计算和人体工程学。近些年来,随着智能设备的普及和视频游戏用户的不断增长,人机交互已经被应用于我们生活的方方面面。
IPSec(IP SECURITY)是近年来发展起来的一种网络安全标准,它在网络层针对IP包进行加密和认证,以保证数据的保密性和完整性。本文从网络安全问题开始,首先简单介绍了IPSec协议体