论文部分内容阅读
现实生活中许多系统可以表示成复杂网络,如社会关系网、蛋白质互作用网、交通运输网等,复杂网络分析在社会学,生物学等领域有着广泛的应用。社区结构是复杂网络的重要特征之一,即一个网络可以分成若干个社区,每个社区内部的节点之间连接相对紧密,各社区间的节点连接相对稀疏。设计有效的社区发现算法可以发现社会网络中的社区结构、生物网络中的蛋白质功能模块等,有助于深入研究各种类型复杂网络的功能模块及其演化特征,对准确地理解并分析复杂系统的拓扑结构及动力学特性具有十分重要的理论意义和应用价值。针对复杂网络中的社区发现问题,本文主要包括以下两方面内容:(1)对网络中节点间的相似性进行合理度量是社区发现的核心问题。针对此,给出了一种基于节点间点不重复路径的节点相似性指标,以此为基础,提出了一种基于节点间路径度量的图聚类算法(a graph clustering algorithm based on local paths between nodes in complex networks,PGC),包括节点相似性计算、中心节点选择、初始社区划分和社区优化四个主要过程。采用节点间点不重复路径对节点相似性进行度量,消除了由大度节点引起的较多的点重复路径对节点相似性度量的影响,提高了对大度节点邻域中节点的划分能力。通过与一些经典算法在真实网络以及人工网络数据集上的实验比较分析,结果表明算法PGC在NMI、ARI等方面均表现出良好的性能。(2)针对标签传播社区发现算法在节点更新顺序及标签传播过程中存在较大随机性而导致划分结果稳定性差的问题,提出一种基于标签传播的两阶段社区发现算法(a two-stage community detection algorithm based on label propagation,LPA-TS),在第一阶段,通过节点参与系数确定更新顺序,并在标签传播过程中依据节点之间的相似性更新节点标签,得到初始社区划分。将社区看作节点,社区间连边数作为边权重,得到社区关系网络;在第二阶段,将不符合弱社区定义的初始社区与连边最多的相邻社区合并,再按照社区参与系数由低到高的顺序合并初始社区提升社区发现质量。LPA-TS减少了传统LPA方法在节点更新和标签传播过程的随机性。通过与一些经典算法在8个真实网络及不同参数下LFR benchmark人工网络数据集上的实验比较表明LPA-TS表现了良好的稳定性,在NMI、ARI、模块性等方面表现良好。