面向社会网络的网络抽样与统计推断方法研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:hanyikuaile1112
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代下,社交网络数据的井喷给网络科学的发展注入了强劲动力,也给研究者们带来了新的困境。研究者们都极力去获取和分析“大”而“全”的社交网络数据,但实际上,面对规模巨大的社交网络,亿万级的数据,进行全样本的获取、存储、检索、分析、挖掘等都显得十分困难。即使能够耗费庞大的硬件和计算资源去获取“大”而“全”的网络数据并开展运算,也显得很不经济;同时,面对如舆情监控、商业决策、疾病预防与控制、应急管理等时效性较强的任务时,全样本采集和分析并不能高效快速得出结论,很有可能会丧失处理事件的最佳时机……那么按照一定方式抽取网络中的节点和边,并在一定理论体系下开展社交网络特征的估计便是一个非常好的解决方案。由于网络抽样方法体系拥有科学获取网络局部数据、高效地估计网络总体特征、降低分析挖掘任务的时间和成本等优势,使得其在社会网络等复杂系统的分析中得到了十分广泛的应用。本文聚焦社会网络抽样与统计推断相关理论与应用研究中的不足,围绕网络抽样方法的性能讨论、方法的改进与创新、方法的扩展应用等方面内容,主要开展了以下研究工作:(1)进行了二部网络上网络抽样方法的研究。围绕网络抽样方法在二部网络中被较少关注的问题,从二部网络抽样的实际场景出发,聚焦八种经典的爬取类抽样方法,通过全面的仿真实验,分析了二部网络中不同网络结构(包括度分布、不平衡层节点数、度相关性及社区结构)以及相关抽样设置(种子选择策略和分支数量)对这些抽样方法的影响情况,讨论了这些抽样方法在二部网络上实施的可行性和有效性,最后通过综合比较,对二部网络上爬取类抽样方法性能的差异进行了总结,并提供了二部网络上抽样方法选择的策略,即在无先验信息时,应选用RDS方法,而在有相应先验信息时,可选用MHRW和MDRW方法。(2)提出了针对有向网络入度信息的估计方法与总体变量的估计方法。围绕有向网络中抽样会打破传统方法的“无向性”假设从而引入估计偏差的问题,提出了针对有向网络的网络抽样与统计推断方法。该方法在随机游走抽样的框架下,利用随机游走的重复访问机制,建立了访问频数与节点入样概率的关系,从而实现了对随机游走过程中天然隐藏的入度信息的估计。然后,以此为基础,利用估计得到的入度信息对样本进行校正,提出了有向网络中总体变量的估计方法。提出的方法在有向网络中取得了很好的效果,虽然它们的估计结果存在一定偏差,但与传统基于出度信息的方法相比,得出的结果与真实值更加接近。(3)提出了中心网络抽样与统计推断方法围绕网络抽样推断中抽取节点自身信息“未知”或“不可靠”的一般问题,利用“朋友节点信息更易获取”的社会学现象,提出了中心网络抽样与统计推断方法。该方法通过间接信息收集方式,即获取中心节点邻居的相关属性信息,然后利用网络潜在的互惠边结构完成了对网络总体变量的估计,除此之外,论文还基于bootstrap提出了相应的置信区间估计方法。最后,考虑到中心网络抽样实施中可能只能获取部分邻居信息的问题,以及估计量受到活跃系数影响的问题,提出了两种中心网络抽样推断方法的变形。在模型网络和真实网络上的仿真结果都很好地说明了中心网络抽样推断方法的可行性和有效性;同时,在相对苛刻的实证数据获取环境中,即抽样调查中,提出的方法也体现出了比一般的直接统计方法更多的优点。(4)提出了基于随机游走抽样的局部免疫策略围绕网络抽样推断方法的扩展与应用,针对社会网络信息传播中基于随机抽样的局部免疫策略性能偏低的问题,提出了基于随机游走抽样方法的局部免疫策略。该策略融合了现有的随机游走抽样技术,无需网络全局度信息排序,仅依靠抽样过程中获取的局部信息,就能判断当前节点是否需要被免疫。除了不依靠全局信息之外,提出的方法在免疫效率和速度上超过了主流的局部免疫策略,且与依靠全局度排序的目标免疫方法十分接近。
其他文献
当网络文学的发展愈加"主流化"的催生下,20世纪武侠小说与明清以降传统说部中的神魔小说相结合转化,武侠小说便进入了玄幻时代。而对于进入玄幻时代的武侠小说,如何获得主流
当前,人口老龄化问题已进一步受到了国际经济社会的普遍重视和关注,作为发展中国家,中国老年人口在世界规模最大且人口老龄化速度不断加快,其中吉林省的老龄化情况十分典型。吉林省作为东三省之一,蕴含巨大的经济发展潜力,在振兴东北和维护“五个安全”等战略中一直具有重要的地位。与此同时,人口老龄化已经逐渐成为了吉林省加快实现老工业基地现代化振兴的难以忽视的阻碍。论文首先详细介绍了吉林省人口老龄化的基本概念以及
学位
目的:研究YAP蛋白在慢性鼻-鼻窦炎伴鼻息肉(chronic rhinosinusitis with nasal polyps CRSwNP)、慢性鼻-鼻窦炎不伴鼻息肉(chronic rhinosinusitis without nasal polyps CR
<正>进入新发展阶段,从举全力推进脱贫攻坚,到全面推进乡村振兴,这是"三农"工作重心的历史性转移。"要全面推进乡村振兴。坚持农业农村优先发展,提升乡村‘形、实、魂’。"今
<正>没有乡村振兴,就没有中华民族的伟大复兴。党的十九届五中全会作出"优先发展农业农村,全面推进乡村振兴"的战略部署,擘画了"十四五"时期乡村振兴的美好蓝图。我们要在巩
21世纪是信息化时代,互联网的普及带领人们进入了一个全新的网络世界,因此旅行社应主动改变传统的商业模式,以在这个全新的网络时代立足。本文在全面了解当前旅行社发展现状
结合增城区工业产业区块划定工作,为更好促进工业产业发展,在用地方面通过建立现状数据库,划定工业产业保护红线,对产业用地分类指引,加强规划指标管控等措施,切实保障工业用
目的探讨诺氟沙星等药物治疗急性胃肠炎的临床疗效及护理干预的作用。方法选择我院2014年7月~2016年7月间收治的急性胃肠炎患者96例,随机分为对照组和观察组,各48例。对照组患
研究背景慢性鼻-鼻窦炎(chronic rhinosinusitis,CRS)是鼻腔及鼻窦黏膜的慢性非特异性炎性疾病。CRS的发病机制尚不明了,目前研究报道可能与细菌、病毒等病原体的感染,炎症因
<正>1在工业领域和日常生活中时刻面临的油品、水、空气污染问题1.1油品污染问题现代工业的发展,日益对机械设备的功率、转速、压力和精度提出了更高的要求.摩擦和润滑等问题
会议