论文部分内容阅读
社区结构是复杂网络的重要特性,在网络中发现社区就是把相似结点划分为一个集合,使得集合内结点之间的相互作用比它们与集合外结点的相互作用更强,即同一社区内部结点间的链接较为稠密,不同社区之间的链接较为稀疏。近年来社区发现广泛应用于不同类型的网络,如万维网、社交网络和生物网络等。分析复杂网络的社区结构有助于理解真实的复杂系统,对商业推荐和用户管理具有重要的意义。虽然近年来涌现了大量的社区发现方法,目前仍有一些问题亟待研究,如在大数据环境下,如何有效地、精准地挖掘出复杂网络的社区结构;如何将社区发现的结果应用到实际的问题中等。鉴于现有社区发现算法的不足,本文采用网络嵌入学习的方法和标签传播的方法来提升社区发现算法的效果。其中,网络嵌入学习的方法可以将网络的静态结构特征映射到结点的向量化表示中,而标签传播的方法能够很好的捕捉网络的动态传播特性,本文具体的研究内容展开如下:(1)针对静态结构特征学习的网络嵌入方法本文提出一种基于闭合回路采样的网络嵌入模型,能够将大规模网络中结点的结构特征映射到固定的、低维度的向量空间,然后利用火均值方法将学习到的结点特征向量进行社区划分;在此基础上,本文以网络的链接关系为中心,提出了基于链接特征的网络嵌入模型。对比实验分析,该方法不仅能适用于大规模网络数据,并且能够取得有效的结果。(2)针对动态传播特性的标签传播方法本文研究了现实中网络普遍存在结点影响力分布不均衡的情况,提出一种基于标签传播概率的重叠社区发现算法(LPPB)。该方法在标签传播的过程中,综合网络的结构传播特性和结点的结构相似性共同计算标签传播的概率。实验结果验证了该算法具有较高的准确性和稳定性,并且通过对重叠结构的动态分析,能够揭示社区重叠结点的行为特性和网络的动态发展趋势。本文进一步分析了标签传播的方法,提出了多标签传播方式的重叠社区发现算(MLPS)。该方法结合标签的相似性传播和基于影响的传播模式来指导标签在结点间传播的过程。通过合成网络和真实网络的实验验证了 MLPS算法具有较高的准确度和模块度。为解决聚类方法普遍关心的寻找类中心问题,本文提出一种基于Core-leader的标签传播重叠社区发现算法(CLBLPA)。该方法首先采用贪心策略的Core-leader挖掘算法寻找潜在社区的核心结点,即聚类中心的候选结点;然后根据标签影响势进行标签的迭代更新,这样可以加速算法的收敛,能够更加有效地挖掘复杂网络的社区结构。(3)融合网络嵌入学习和标签传播的方法本文结合网络嵌入学习和标签传播算法的特性,将二者融合为一个综合的社区发现框架,能够同时利用网络的结构特性和动态传播特性来挖掘社区。该融合方法将网络嵌入学习方法输出的结点特征向量转化为标签传播方法中结点的距离度量,用于指导标签的传播过程。最后得出的社区发现质量要优于网络嵌入学习和标签传播的方法。(4)重叠社区结构的研究及结构洞识别本文对社区的重叠结构进行了详细的研究,通过分析重叠结点的行为特性可以预测结点的链接行为,通过挖掘社区的结构洞来验证社区发现的准确性以及研究了结构洞结点对网络信息传播的作用,本文还动态地分析了社区结构的演化模式,对社区管理具有重要的研究意义。