论文部分内容阅读
近几年,随着互联网的迅速发展和移动智能终端设备的广泛普及,社交网络已渗透到用户的生活和工作中,由于社交网络中用户的广泛参与性和信息的快速传播,对国家和社会影响的日益深入,如何快速有效地选取具有较强信息传播能力的关键用户,对于控制不良突发信息的传播、社交网络舆情监控具有重要意义。本文以当今大规模社交网络中突发信息检测为背景,提出了一种大规模社交网络中的关键用户的高效选取方法。为了能更好地处理当今大规模的社交网络及其海量的用户发布的消息数据,本文选用当今流行的基于内存的Spark分布式计算框架,在本文中的所有数据处理及算法都是基于Spark计算模型的。本文首先利用社交网络结构及其用户发布消息的历史数据,以构建出带权的社交网络模型;然后基于带权的社交网络模型,对用户节点的信息传播能力进行了定义,并给出了其定量度量方法,在此我们借鉴了 PageRank算法以量化出节点的信息传播能力;最后基于用户节点的信息传播能力值进行关键用户的选取,在对用户节点进行选取时,本文给出了d-距选取算法,以使得所选取的不同关键用户的信息传播范围尽量少地重叠。建立在新浪微博数据上的实验结果表明,本文提出的方法具有高效性、可行性和可扩展性。并基于本文的理论研究,实现了基于Web服务架构的面向突发信息检测的原型系统,进一步反应了本文研究具有重要意义。具体而言,本文的主要工作概括如下:(1)基于Spark计算框架,利用社交网络的结构信息和用户发布消息的历史数据,构建社交网络的有向带权图模型。(2)基于构建的社交网络模型,给出基于Spark的节点信息传播能力的定量度量方法,以得到社交网络中各节点的信息传播能力值。(3)针对突发信息检测和舆情监控等应用中选取关键用户的高效性和有效性需求,给出了基于Spark的d-距选取算法。(4)建立在新浪微博数据集和Spark分布式集群上的实验,测试了本文方法的高效性、可行性和可扩展性。(5)基于本文关键用户选取的研究,实现了基于Web服务架构的面向突发信息检测的原型系统。