论文部分内容阅读
大数据时代下,社交网络数据的井喷给网络科学的发展注入了强劲动力,也给研究者们带来了新的困境。研究者们都极力去获取和分析“大”而“全”的社交网络数据,但实际上,面对规模巨大的社交网络,亿万级的数据,进行全样本的获取、存储、检索、分析、挖掘等都显得十分困难。即使能够耗费庞大的硬件和计算资源去获取“大”而“全”的网络数据并开展运算,也显得很不经济;同时,面对如舆情监控、商业决策、疾病预防与控制、应急管理等时效性较强的任务时,全样本采集和分析并不能高效快速得出结论,很有可能会丧失处理事件的最佳时机……那么按照一定方式抽取网络中的节点和边,并在一定理论体系下开展社交网络特征的估计便是一个非常好的解决方案。由于网络抽样方法体系拥有科学获取网络局部数据、高效地估计网络总体特征、降低分析挖掘任务的时间和成本等优势,使得其在社会网络等复杂系统的分析中得到了十分广泛的应用。本文聚焦社会网络抽样与统计推断相关理论与应用研究中的不足,围绕网络抽样方法的性能讨论、方法的改进与创新、方法的扩展应用等方面内容,主要开展了以下研究工作:(1)进行了二部网络上网络抽样方法的研究。围绕网络抽样方法在二部网络中被较少关注的问题,从二部网络抽样的实际场景出发,聚焦八种经典的爬取类抽样方法,通过全面的仿真实验,分析了二部网络中不同网络结构(包括度分布、不平衡层节点数、度相关性及社区结构)以及相关抽样设置(种子选择策略和分支数量)对这些抽样方法的影响情况,讨论了这些抽样方法在二部网络上实施的可行性和有效性,最后通过综合比较,对二部网络上爬取类抽样方法性能的差异进行了总结,并提供了二部网络上抽样方法选择的策略,即在无先验信息时,应选用RDS方法,而在有相应先验信息时,可选用MHRW和MDRW方法。(2)提出了针对有向网络入度信息的估计方法与总体变量的估计方法。围绕有向网络中抽样会打破传统方法的“无向性”假设从而引入估计偏差的问题,提出了针对有向网络的网络抽样与统计推断方法。该方法在随机游走抽样的框架下,利用随机游走的重复访问机制,建立了访问频数与节点入样概率的关系,从而实现了对随机游走过程中天然隐藏的入度信息的估计。然后,以此为基础,利用估计得到的入度信息对样本进行校正,提出了有向网络中总体变量的估计方法。提出的方法在有向网络中取得了很好的效果,虽然它们的估计结果存在一定偏差,但与传统基于出度信息的方法相比,得出的结果与真实值更加接近。(3)提出了中心网络抽样与统计推断方法围绕网络抽样推断中抽取节点自身信息“未知”或“不可靠”的一般问题,利用“朋友节点信息更易获取”的社会学现象,提出了中心网络抽样与统计推断方法。该方法通过间接信息收集方式,即获取中心节点邻居的相关属性信息,然后利用网络潜在的互惠边结构完成了对网络总体变量的估计,除此之外,论文还基于bootstrap提出了相应的置信区间估计方法。最后,考虑到中心网络抽样实施中可能只能获取部分邻居信息的问题,以及估计量受到活跃系数影响的问题,提出了两种中心网络抽样推断方法的变形。在模型网络和真实网络上的仿真结果都很好地说明了中心网络抽样推断方法的可行性和有效性;同时,在相对苛刻的实证数据获取环境中,即抽样调查中,提出的方法也体现出了比一般的直接统计方法更多的优点。(4)提出了基于随机游走抽样的局部免疫策略围绕网络抽样推断方法的扩展与应用,针对社会网络信息传播中基于随机抽样的局部免疫策略性能偏低的问题,提出了基于随机游走抽样方法的局部免疫策略。该策略融合了现有的随机游走抽样技术,无需网络全局度信息排序,仅依靠抽样过程中获取的局部信息,就能判断当前节点是否需要被免疫。除了不依靠全局信息之外,提出的方法在免疫效率和速度上超过了主流的局部免疫策略,且与依靠全局度排序的目标免疫方法十分接近。