大规模网络中抽样策略与应用研究

来源 :电子科技大学 | 被引量 : 1次 | 上传用户:Chanco
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在复杂网络科学领域,人们通过对复杂网络的静态性质和动态特征的研究,提出了很多刻画复杂网络的指标和分析计算方法。然而,随着网络规模的不断增长,这其中有很多算法由于时空复杂度过高而不再适用于大规模网络上的计算。解决这个问题的方法之一便是利用网络抽样,在抽样数据集上以较低的资源消耗获得近似解。然而,现有的抽样算法大部分是基于单阶段抽样框架,往往难以精确刻画具有多重分布特性的复杂网络样本,无法满足具体领域研究的需要。本文在国内外相关研究基础上,针对大规模网络中的最短路径计算和大规模社交网络中的二元关系预测提出了网络抽样策略并设计了相应的快速算法。最短路径是很多网络分析算法的基础,然而经典算法由于复杂度过高,往往无法处理大规模的网络。我们在大规模网络的最短路径计算中引入了中心点抽样,提出了有效计算最短路径的近似算法。本算法利用复杂网络中普遍存在的等级结构,抽取网络中的若干中心节点并与周围的邻居节点进行凝聚形成超级节点,构成新的上层网络,并在上层网络上重复中心节点与邻居节点的凝聚过程,直到最上层网络中的节点个数低于某一阈值时结束。最后利用Dijkstra算法精确地计算最上层网络中节点间的最短路径,并根据凝聚得到的等级网络结构来估计原始网络中节点之间的最短距离。实验结果表明我们的算法在精度和效率上都明显优于当前现有的算法。在大规模社交网络中,用户之间的二元关系对社交网络分析有着很高价值。然而,随着网络规模的不断增加,用户之间的关系越来越复杂,也越来越隐蔽,如何高效准确地推断用户之间的二元关系逐渐成为现在的研究热点。在本文中,我们基于社会心理学理论提出了一种适合于大规模网络二元关系预测的算法。我们设计了分段训练框架将训练集分为两个子集,并在每个子集上分别训练SVM分类器。为了应对大规模训练数据带来的算法效率下降问题,我们引入了有效的抽样策略,利用不到原网络1%的数据样本,构建了具有高预测准确率的模型。我们与现有的算法以及它们的集成算法(AdaBoost)进行了比较,在公共标准数据集上的实验结果表明,我们的算法在大规模社交网络上的预测准确率更高。
其他文献
莱维游走是当前数学物理学研究的热点之一,在生活中应用广泛并且莱维游走与生活关系密切.本文由五个章节组成.第一章,我们简要的介绍了莱维游走的发展历史,及讨论的背景,并给
本文主要考虑一类非局部扩散模型行波解的存在性与不存在性.首先介绍传染病模型以及带治疗流行性感冒模型的相关背景和本文的主要工作内容与思想方法.其次研究了带治疗流行性
拓扑绝缘体(topological insulators)是一种具有奇特量子特性的新型材料,在凝聚态物理研究方向上是一大热点。因其具有绝缘的体态和金属性的表面态的奇特电子结构而备受关注
复杂网络可视化是复杂网络研究中的重要手段。随着Web2.0时代和大数据时代的来临,作为研究对象的复杂网络的规模越来越大,人们也越来越需要对规模庞大的数据进行准确地表达和
复杂系统的扩散过程被广泛应用于物理、化学、金融等科学领域.奇异扩散过程与分数阶FOkker-Planck方程的等价性问题近年来被广泛研究,Magdziarz[23]导出了在外部势存在的情况
非一致网格上的有限差分方法在近似经典积分/导数中已经有较好的发展,但由于分数阶算子是非局部的,因此很难将其直接推广到分数阶模型中.本文介绍了一种可以在一定程度上估计
图的自同态幺半群将图论理论和半群代数理论联系起来,是代数图论研究中的一个主要课题.本文主要利用循环完全图K(7m,7)的组合结构来研究其自同态幺半群的代数结构和性质.本文
第一性原理计算方法可以模拟材料的晶体结构以及计算材料的各种物理性质,为相关材料的制备提供理论依据。本文基于密度泛函理论的平面波赝势法,对CuXSe2(X=B,Al,Ga,In,Tl)晶
由于方柱绕流在现实生活中有很多实际应用,例如水流绕过桥墩,海上钻井平台,风绕过高层建筑物等。流体流过障碍物产生交替的漩涡脱落,会在物体上形成相关的脉动力,引起结构震
近年来,随着复杂网络数量的不断增多,复杂网络所涉及的领域不断扩大,对复杂网络性质的研究已经成为一门非常热门的课题。复杂网络通常具有一定的社团结构,即社团内部的关系紧