特定话题域的微博用户影响力研究与实现

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:nm680nm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博作为近几年来最热门的社交网络平台之一,其用户数量、用户活跃度、都以惊人的速度持续增长着。微博上的信息传播具有核裂变式的特点,信息产生速度快、传播速度快。微博的自媒体特性使得每个人都有在互联网上制造和快速传播自己观点的能力。在微博用户中,少数有影响力的用户担任着话题领袖的角色,他们利用自身的影响力推动信息的传播、影响公众的舆论。对微博用户的影响力进行分析,不仅可以用于广告投放、公关推广、市场营销、信息推荐等领域,还能给微博网上的舆情监控提供一种有效的解决途径。目前关于微博用户影响力分析有很多相关研究,其中通过粉丝数、转发数、用户活跃度等指标评定用户影响力是一种常见的简便的方法。更多的研究则借鉴网页排序算法,通过随机游走模拟用户在微博平台上的浏览行为,设计微博用户影响力评估算法,得到用户的影响力。目前的微博用户影响力评估大多针对用户的综合影响力,而没有对用户的影响力进行进一步的划分。用户在不同的领域和行业的活跃度不同,其影响力大小也存在区别。本文提出一种针对特定话题域的微博用户影响力评估算法,通过对用户发布的微博中的文本内容进行分析,提取话题特征向量,得到用户在特定话题下的话题信息量,用余弦夹角公式计算用户的话题相似性;结合用户间的转发关系,设计特定话题域的微博用户影响力分析算法算法,得到用户在特定话题域下的影响力排名。主要工作和创新点包括:1.通过构造特定话题域的特征词库,对用户发表的微博文本内容进行语义分析,提取用户的话题特征向量,计算用户的话题信息量。并通过用户的话题特征向量,计算用户间的话题相似性。2.基于PageRank算法设计特定话题域的微博用户影响力分析算法算法,在转发网络中进行随机游走,并基于用户话题相似性设置网络中的转移概率,基于用户的话题信息量设置网络中随机跳转概率,迭代计算,得到特定话题域的用户影响力排名。3.基于Hadoop分布式平台搭建影响力分析系统,用HDFS分布式系统存储从互联网上爬取的微博数据,并基于MapReduce编程思想实现影响力分析的各个模块。通过实验对新浪微博用户计算在“国内时政热点”领域的影响力排名,分析实验结果并与其它影响力分析算法对比,评价算法的性能。并通过对不同节点数的Hadoop集群进行算法性能测试,验证了算法在Hadoop分布式实验平台中具有极强的数据吞吐量和强大的计算性能。
其他文献
本文设计和实现了组件和AUI(AutomotiveUserInterface)技术支持下的导航系统人机接口部分。 首先介绍了导航系统的整体结构和系统中HMI(HumanMachineInterface)层的功能。
随着数据库和信息技术的迅猛发展,通过其得到的快速增长的海量数据因为得不到人们的理解而变为一座座的“数据坟墓”。作为解决这一问题的重要方法,数据挖掘引起了信息产业界的
基于Web技术的B/S体系结构是当今软件开发首选的架构.由于Web技术应用的普及,传统的C/S结构与之又有不少区别,导致传统的测试方法和工具不能完全适用于Web应用系统,给Web应用
本文主要研究了动态图像序列的运动参数估计问题,它是计算机视觉领域的一个基本问题,也是图像序列分析的一个核心问题,在国民经济和国防建设中都有着广泛的应用。因此,运动参
本文针对现有环境遮片技术中仍然存在的一些问题和局限性进行研究,提出了环境遮片提取与合成的一些新的算法与实现方法。主要工作包括:(1)提出了辐射度空间上的环境遮片提取与
色彩模式转换器是图像处理软件中的一项重要内容,包含色彩模式转换和图像上当前焦点的颜色信息提取这两部分的内容。为了更好的理解色彩模式转换器的作用,文章中着重讲述了色彩
本文较全面彻底地对中国Web Graph作了研究,包括中国Web Graph的静态属性的统计分析以及其动态演化分析,并且将其和全局Web Graph作了比较。在对中国Web Graph做静态属性的统
随着航天技术和信息技术的迅速发展和应用,空间在政治、经济和军事等领域的战略地位日益提高,空间信息优势将成为国家和军队强大的关键因素,因此,我国提出要建立和发展卫星综合信
近年来我国公路事业得到飞速发展,但因公路工程的地域分布和工程数据的实时更新,使得对整个公路工程项目海量数据的管理变得异常复杂。如何借助现代化信息处理技术加强对公路工
近年来,社交网络、电子商务、在线视频、大容量网盘等新一代互联网应用发展迅猛,这些应用具有数据规模大、业务增长快等特点,需要越来越多的高性能服务器支持,软硬件维护成本