论文部分内容阅读
随着信息技术和人们生产和生活实践的发展,现代社会已经进入了大数据时代。大数据时代所面临的主要挑战是,自然、社会和信息等领域的实际系统规模日益庞大、关系日益复杂,是典型的复杂系统。随着数据生成和数据采集技术的发展,人们对复杂系统的研究逐渐从理论探讨过渡到数据处理方面。从一般系统论的角度来看,复杂网络是复杂系统的简化表示,即将复杂系统表示成其组成元素以及组成元素间的相互作用的集合。通过这种有效的抽象,使得我们可以从数学的角度来研究复杂系统的性质。复杂网络在微观尺度具有局部积聚、马太效应等性质;在宏观尺度具有小世界、无标度等性质。除了上述两种极端情况,复杂网络还具有明显的层次结构,存在着介于宏观和微观之间的介观特性,包括结构特性和动力学特性。社区结构就是复杂网络在介观尺度的关键结构特性之一。通常用模块度来度量社区内部连接的密集程度,它是社区发现的一个重要的目标函数。本文研究复杂网络社区结构发现问题,围绕基于目标函数优化的复杂网络社区结构发现方法,开展了如下四个方面的工作。第一,提出了基于最小夹角的社区结构优化算法。模块度矩阵的谱分解的一个主要不足在于模块度矩阵没有非负性,针对这一问题从模块度的概率解释出发对模块度矩阵的对角线进行了修正使其成为随机变量的样本方差,由此得到的正定矩阵,改进了社区发现问题的向量划分描述。进一步,从向量划分的角度解释了有限分辨率现象的根源,设计了以最小化向量夹角的贪婪算法,该方法比直接优化模块度的方法有更高的异质社区分辨能力。第二,改进了基于局部拓扑相似性的社区结构发现方法。针对现有相似性度量存在的主要问题即对直接连接的低估倾向,提出了基于星形邻域和α-邻域的相似性度量修正了上述缺陷。在此基础上设计了相应的层次聚类算法,改善了社区发现结果。算法采用堆结构存储相似性矩阵,提高了算法速度。第三,提出了有限随机的模块度优化算法。直接优化模块度的贪婪算法容易陷入局部极值,同时模块度存在大量与极大值非常接近的次优解。本文提出的随机搜索算法能够跳出局部极值,多次的执行结果能够探索到模块度的平台区域,体现网络社区结构的多样性。第四,考虑了基于完全子图分析的社区结构发现方法。以完全子图作为基本结构单元,通过建立节点-派系二部图和构造派系图的方式进行无重叠的社区结构发现。通过建立网络的极大完全子图紧覆盖所构成的派系图,以重叠程度评估派系相似性,利用加权模块度来切割派系图,进而形成网络的重叠社区结构。