基于话题的Twitter用户影响力分析

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:gzw39
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博凭借其开放性、易操作、交互广泛逐渐成为网络社交的典型应用,对人们日常生活的影响越来越大。在社会网络中,用户的影响力不同,将对信息的传播产生不同的作用,进而同一个用户对不同话题的传播也产生不同的作用。因此,微博中用户影响力的分析尤其是面向话题领域与用户信息扩散能力的预测研究是近几年热点研究方向之一,具有重要的研究意义和实际价值。微博的使用产生海量的数据,其中噪声数据多、用户关系复杂、信息扩散随时间快速演化等特征对研究带来了巨大的挑战。本文的主要工作是从具有噪声的数据中提取用户属性与关系属性,分析用户在各个话题领域的影响力,找出高影响力的用户,同时利用数据挖掘与机器学习的相关方法和手段,分析并建立微博用户影响力动态预测模型,从而达到预测用户信息扩散能力的目的。本文的主要研究内容和创新点包括:(1)本文定义了微博用户影响力的含义并将影响力按静态与动态区分,并且使用用户所发博文的扩散广度和扩散速度度量用户信息扩散能力。(2)从采集到的Twitter用户数据中提取用户静态属性、行为属性、关系属性三大类属性,使用LDA模型对话题空间建模,计算给定话题数条件下,用户发布博文在各话题下的分布情况。本文提出基于话题的UAMR-InfluenceRank算法,同时考虑用户属性和关系网络,分析用户在各个话题领域中的影响力,并且在真实的Twitter数据集上验证了UAMR-InfluenceRank算法在计算Top-N用户影响力的排序结果上优于PageRank、TwitterRank等经典的高影响力用户挖掘算法,在准确率、召回率、F值的评价指标上,UAMR-InfluenceRank算法有了一定程度的提高。(3)本文采用数据挖掘的方法,对采集到的Twitter数据集进行数据预处理、体征提取等操作,从用户和博文这两个方面提取出反映用户动态影响力的相关特征,以xgboost算法作为基础模型,应用于多个特征群、多组参数、数据集分时条件下,借鉴堆结合策略的思想,提出多视角多参分时堆融合算法(Multi-View Multi-Parameter Time-Division Stacking Ensemble),以融合后的模型综合预测用户的信息扩散能力。通过真实的Twitter数据集验证了本文预测方法的可行性与有效性,证明根据用户历史信息学习特征并预测用户未来发布博文的信息扩散效果的方法是有效的。综上所述,本文从海量的微博数据中,综合考虑用户属性、多关系属性,研究了基于话题的用户影响力,并采用数据挖掘的方法对用户的信息扩散能力进行建模与预测,对于微博网络中舆情的分析与关键用户的挖掘工作具有重要的实际价值。
其他文献
失业预防是就业保障体系的首要环节。如果能够有效地将失业风险控制在失业发生之前,将使我国就业保障工作产生事半功倍的成效。新成长劳动力群体是人力资源市场供给的重要组
采用文献资料调研、数理统计等方法,对我国艺术体操集体项目特殊艺术性中运动员之间的协作和器械使用进行重点研究,探析我国艺术体操集体项目在特殊艺术性加分方面的现状。结
通过对大功耗电子设备冷却技术的分析,提出了几种液冷机箱结构,对其优缺点和液冷机箱的关键技术进行了阐述.并对液冷测试技术和测试设备进行了介绍.
"意思表示错误"或简称"错误"是意思表示瑕疵的一种,我国民事立法上只规定了重大误解制度,并没有意思表示错误制度的规定,且理论上对错误的研究还很薄弱。因意思表示错误而订
介绍在组合T梁结构中采用的后张法预应力分阶段张拉施工工艺和施工控制,提出预应力施工中可能出现的问题及其处理方法.
1992年5月7日,全国足球选拔赛天津赛区的选拔开始了,这次比赛不计名次,以充分展示为目的,小球员们踢得极为放松,真实而又充满生气,健力宝选拨小组的专家(包括张俊秀、张宏根
期刊
山东省烟台市牟平区是特级侦察英雄杨子荣的家乡,而如今在这片英雄诞生的土地上,在“双创”的推动下,从城镇到乡村正滚滚涌动着一股创业热潮.在繁忙的人力资源市场服务大厅,