论文部分内容阅读
由于复杂网络存在于多个科学领域,对于复杂网络的研究也就成为了涉及生物、数学、物理、计算机、社会学以及复杂性科学的研究,复杂网络研究的重要性和意义通过其涉及领域之广可见一斑。在现实生活中,生物系统中的新陈代谢网、食物链网,社会系统中的电子邮件网、科学家写作文,科技系统中的因特网、万维网等这些网络都可以抽象为点和连线的构成的复杂网络,其中用点来代表这些现实网络中的实体,用点之间的连线表示实体之间的关联。正因为如此,复杂网络的研究成为了多种学科交叉研究的热点之一。经过多年的研究,通过对于各种类型网络的统计分析,复杂网络的小世界性、无标度性等基本统计特性已经被人们发现。而社区结构,这一复杂网络的另一特性被提出后也受到广泛关注,并且成为了研究的热门内容之一。社区结构这一概念是Newman在2002年首次提出的,复杂网络抽象成点线的关系图后,其中的社区结构就是复杂网络中的点线子图,社区结构的特性是社区之间点的联系尽可能的稀疏,社区内部点之间的联系尽可能紧密。由于社区结构和数据聚类中“簇”的概念相似,因此也将社区结构特性称之为聚类特性。目前已经在多种复杂网络中都发现有社区结构的存在,如生物网、科技网和社会网等。对社区结构的探索可以发现复杂网络中内在关系,对于分析了解复杂网络的功能和行为预测具有重要的理论意义及实用价值。正因为挖掘社区结构对于分析复杂网络意义重大,当今有众多科研工作者都致力于寻找社区挖掘算法,通过众人的不懈努力,如今已经出现了许多不同的社区挖掘方法,如著名的Girvan-Newman(GN)算法、标号传播算法等。而寻找出社区后,如何判断社区结构的优劣,这也是社区挖掘中一直研究重要问题之一。在众多算法中,大家都提出了不同但类似的判断方法,这些社区优劣判断方法的最终目的是使得算法能够尽可能挖掘出正确的社区,并且尽可能的将所有的社区都挖掘出来。本文中的主要研究工作以及研究成果有:(1)我们提出了一种针对复杂网络中挖掘多层重叠社区的算法。如今对于社区挖掘的算法已经出现了很多种,多层和重叠社区的挖掘算法也有不少,但是大部分算法都是单独针对多层社区或者单独针对重叠社区的挖掘。而现实中的网络结构中,往往存在多层而且重叠的社区。针对这种情况,本文中提出一种基于最大团的网络社区挖掘算法,该算法通过递归的方法可以同时挖掘多层的和重叠的社区。在模拟数据集和标准测试数据集上的实验结果证明,该算法是可行而且有效的。(2)我们提出了一种基于最大团和标号传播算法的社区挖掘算法。该算法在最大团的基础上形成初始聚类,由此开始进行隶属度传播,由于很多的顶点已经被赋予了隶属度,这使得算法的收敛速度大大加快。此外由于我们的算法传播的是隶属度,而不是标号,其结果是指明顶点属于各个社区的可能性,而不是单纯的标号,从而大大提高了算法的准确性,降低了算法的复杂度。从实验结果中可以看出,我们的算法能快速有效地发现网络中的社区结构。(3)我们提出了一种挖掘二部图中的社区网络的交叉迭代算法。算法的第一步通过寻找二部图中的最大团的方法寻找初始社区,在确定初始社区之后,经过交叉迭代的方法,将社区不断完善,我们提出了基于密度值的模块度来评价社区的准确度,通过判断模块度值的变化,来确定何时停止迭代算法。通过两个经典二部图数据集上的实验结果表明,我们的交叉迭代挖掘算法是快速有效的。