面向大规模社交网络中突发信息检测的关键用户选取

来源 :云南大学 | 被引量 : 0次 | 上传用户:yangmu2003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年,随着互联网的迅速发展和移动智能终端设备的广泛普及,社交网络已渗透到用户的生活和工作中,由于社交网络中用户的广泛参与性和信息的快速传播,对国家和社会影响的日益深入,如何快速有效地选取具有较强信息传播能力的关键用户,对于控制不良突发信息的传播、社交网络舆情监控具有重要意义。本文以当今大规模社交网络中突发信息检测为背景,提出了一种大规模社交网络中的关键用户的高效选取方法。为了能更好地处理当今大规模的社交网络及其海量的用户发布的消息数据,本文选用当今流行的基于内存的Spark分布式计算框架,在本文中的所有数据处理及算法都是基于Spark计算模型的。本文首先利用社交网络结构及其用户发布消息的历史数据,以构建出带权的社交网络模型;然后基于带权的社交网络模型,对用户节点的信息传播能力进行了定义,并给出了其定量度量方法,在此我们借鉴了 PageRank算法以量化出节点的信息传播能力;最后基于用户节点的信息传播能力值进行关键用户的选取,在对用户节点进行选取时,本文给出了d-距选取算法,以使得所选取的不同关键用户的信息传播范围尽量少地重叠。建立在新浪微博数据上的实验结果表明,本文提出的方法具有高效性、可行性和可扩展性。并基于本文的理论研究,实现了基于Web服务架构的面向突发信息检测的原型系统,进一步反应了本文研究具有重要意义。具体而言,本文的主要工作概括如下:(1)基于Spark计算框架,利用社交网络的结构信息和用户发布消息的历史数据,构建社交网络的有向带权图模型。(2)基于构建的社交网络模型,给出基于Spark的节点信息传播能力的定量度量方法,以得到社交网络中各节点的信息传播能力值。(3)针对突发信息检测和舆情监控等应用中选取关键用户的高效性和有效性需求,给出了基于Spark的d-距选取算法。(4)建立在新浪微博数据集和Spark分布式集群上的实验,测试了本文方法的高效性、可行性和可扩展性。(5)基于本文关键用户选取的研究,实现了基于Web服务架构的面向突发信息检测的原型系统。
其他文献
能源安全、经济发展与环境保护已经成为全球范围内紧密联系在一起的政策主题。随着人类社会的快速发展和矿物能源的大量消耗,开发生物质能源已成为当前全世界解决能源与环境
水声传感器网络UASNs(Underwater Acoustic Sensor Networks)在工业、国防、环境等领域广泛的运用,一直以来为国内外研究机构和研究学者所高度重视的物联网技术。UASNs主要由
语料库的建设与发展对提高汉语国际教育的教学效率与教学质量有着不可忽视的作用,现有的汉语国际教育语料库有北京语言大学HSK动态作文语料库和汉语学习者口语语料库(未开放
国际投资,作为一个国家重要的经济支撑,不仅能弥补东道国技术、资金、管理等方面的不足,而且将有效的促进一国经济发展,是国家崛起的一个有效方式。然而,随着国际投资不断发
近些年,随着科技的日益进步和人类对于未知领域的不断探索,有越来越多的不适合人类直接到达的环境需要研究和探索。网络化遥操作技术作为能最大限度发挥人类和机械系统各自优
随着4G移动通信技术的成熟稳步发展,智能手机应用已越来越广泛,远程成人教育信息管理系统涉及控制技术、通信技术、计算机技术。采用移动设备通信和数据处理功能,随时随地使
青年亚文化用以指涉青年人特有的,有别于主流文化的边缘性和从属性文化实践形式。改革开放后,随着中西方文化交流的深入,诸如嘻哈、摇滚、朋克等典型的青年亚文化现象在我国
视觉目标跟踪作为计算机视觉领域的重要研究方向,在视频监控、人机交互,智能交通、军事目标定位等方面有着广泛的应用。经过60余年的发展,视觉目标跟踪技术取得了很大进展,但
随着互联网时代的到来,以及智能设备的迅速普及,使得基于视频、音频的多媒体服务迅速的增长,特别是提供视频直播的多媒体服务,得到了广泛的关注和应用,用户已经不满足于仅通
近年来,移动互联网进入一个新的发展高峰。伴随而来的数据量剧增给数据的计算和存储带来新的挑战。在此背景下,云存储逐渐成为了一种被普遍使用的数据存储方式。而云存储环境