社交网络中信息传播预测研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:itwmh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年,社交网络已成为人们获取消息的重要途径。人们可以在社交网络上发布简短的消息,其粉丝们可以转发或者评论这些消息,促使消息广泛传播。正是因为其快捷性,受到了全世界人们的喜爱。无论是在政治安全领域还是经济市场营销方面,信息传播预测研究都具有重要意义和应用价值。本论文共分为三个研究点:信息转发预测研究、用户影响力测量和预测研究以及信息流行度预测研究,主要工作和创新点包括:  1.信息转发预测研究的问题描述是:在社交网络中,给定某个用户的一条原创微博,预测其粉丝中谁会转发它。针对该预测问题而言,什么样的特征是有效的?为了探讨哪些特征在转发预测的过程中起关键作用,全面分析了51种特征,这些特征包括15种博主的用户属性、5种内容特征、15种粉丝的用户属性以及16种交互特征。信息转发预测作为一个二分类任务,实现并比较五种流行分类器的预测效果。通过比较五种分类器结合51种特征的表现,找到表现最佳的模型,又利用信息增益算法找到12种较为重要的特征。再利用不同分类器,结合这12种特征与全特征作对比实验,发现这12种特征取得与全特征几乎相同的预测精度,证明了选取特征的有效性。  2.在大数据环境下,测量并预测每个微博用户的个人影响力。在社交网络中,把一个用户的影响力限定为:具有使其他人对他发的消息做出转发或评论等反应的能力。根据这种理解,提出一种新的尝试测量用户的影响力。该测量方法既考虑了用户所发消息的数量,也考虑了消息的质量。这样,每个微博用户的个人影响力可以被计算得出,同时,也发现大多数人的用户影响力随时间发生变化,但是整体上变化不大。众所周知,事前的预测胜于事后的分析。为了更好地预测每个用户未来一段时间内的影响力,把该预测问题作为回归问题处理,同时详细地分析了19个统计特征、主题特征和用户过去的个人影响力。在提取主题特征的时候,提出的词语合并算法改善了LDA的输出。由于实验数据量巨大,用Spark实现三种流行的回归模型,在有无主题特征加入的情况下作对比试验。实验结果表明,在加入主题特征之后,所有回归模型预测用户影响力的能力明显提高。  3.基于大数据预测信息的流行度。为解决该问题,本工作共分为三个步骤。首先,量化一条微博的流行度。当浏览到一条喜欢的微博时,人们可以转发、评论或点赞它,这三种行为都是对该消息的反应,因此,以这三种行为数作为衡量一条消息流行度的标准。同时,考虑到微博流行度的分布波动很大,很难预测其精确值,而且大家往往关心流行度的量级而非精确的数值,故将此任务转化成多分类问题处理。接着,深入研究了关系到微博流行的作者用户属性、文本内容和时间特征等32种特征。最后,为在大规模数据集上进行对比实验,利用Spark实现三种常用的多分类模型:逻辑回归、随机森林和决策树。实验对比得出几个有意义的结论:决策树在预测信息流行度时表现最佳;时间特征是三类特征中预测能力最好的,接近全特征的效果,并且它们的计算简单,适用于大数据环境下的运算;预测多类别信息流行度的整体效果达到70%以上,这个实验结果对于实际应用有参考价值。
其他文献
本文将网络存储和快照技术做了一次成功的结合,衍生出了SDMP (Snapshot Data Management Protocol),专门针对于各种网络存储环境。SDMP协议将数据的存放和数据的管理分离开,引出
网格是体现资源共享的最新思想,网格的目的就是使得用户方便地使用网络上的各种资源.网格的对外形式表现为各个不同的虚拟组织,虚拟组织是在动态的个人、组织和资源集合中的
公共安全是智慧城市建设的重要组成部分,也是国家反恐维稳的重大实际需求。随着城市化进程的加快和城市人口密度的加大,人为因素造成的公共安全事件逐渐增加,例如聚集踩踏、非法
随着互联网技术的快速发展,用户行为数据被大量的记录下来,利用用户行为数据对用户兴趣建模是很多应用的基础。研究基于多源信息融合的用户兴趣建模技术具有重要的理论价值和实
从七十年代以来,伴随着AI技术的深入研究,智能化CAI的研究逐渐兴起并得以蓬勃发展,取得了一系列可喜的成绩。然而,国内外各种比较成功的ICAI系统都普遍集中在数学、化学等科目,都
该文论述了一个在Linux操作系统上实现的加密文件系统Crypt-FS.我们借鉴了前人在相关领域的工作,在分析和研究了Linux文件系统的实现原理的基础上,完成了加密文件系统设计和
目前,计算机行业的嵌入式技术已经比较成熟,并且形成了一系列嵌入式应用产品.像手机、PDA(如商务通等)均属于手持的嵌入式产品,VCD机、机顶盒等也属于嵌入式产品,而像车载GPS
本论文讨论的是基于组件技术的开放式数控系统软件的研究。主要工作是基于开放式系统的思想,总结出传统数控的特点,探索基于组件的开放式数控系统软件的结构。 开放式控制系
本项目针对公路运输管理部门的现有特点,充分了解其工作性质及流程需求,采用微软的.NET设计思想,开发出联网综合作业系统,满足汽车运输管理所需要的各种功能,包括移动通讯、数据交
随着设计活动日益向国际化方向发展,企业的合作伙伴甚至同一企业的各个部门往往在地域上非常分散,这给设计过程中设计人员间的交流造成了障碍。三维模型是设计人员之间交流的一