论文部分内容阅读
自然界中存在的大量复杂系统都可以通过各种各样的网络进行描述。近年来,复杂网络的研究受到了越来越多的关注,并渗透到从自然科学到工程科学甚至社会科学的多个领域。研究所涉及的网络主要有:生命科学领域的各种网络、Internet/WWW网络、交通网络、社会网络、科学家合作网络和语言学网络等等。随着对网络性质的深入研究,人们发现许多网络具有一个共同的性质一社团结构。诸多学者从不同角度对如何发现网络中的社团结构问题进行了研究。而当复杂网络中存在已知标记节点时,如何更好的利用已知标记和未知标记节点训练出优秀的分类器进行社团划分成为了重点问题。而半监督学习方法恰恰是针对大量无标记节点集与有标记节点集共同进行训练,以得到高性能以及较好泛化能力的学习器。因此,半监督学习的方法能够更好的解决存在已知标记节点的复杂网络社团划分问题。本文从半监督学习角度出发提出了两种算法,旨在解决当网络中存在有标记节点时的社团划分问题。
基于信息传递模型的划分算法:信息从已知标记节点开始通过节点间的边在网络中进行传播,直到每一个未知标记节点接收到所有已知标记节点的信息为止。然后算法分析每一个无标记网络所接收的每一类已知标记节点的信息量,最终根据分析结果对每一个未知标记节点进行标记。信息在传递过程中,为了更好的模拟现实中信号衰减现象,算法利用信号衰减公式来控制衰减程度。此算法为线性时间复杂度,因此运行速度较快。实验结果表明,在对一些网络进行社团划分时,此算法与GN、Wu-Huberman、Newman等算法有着相同的准确率,在个别网络中,其准确率要更高一些。
基于引力模型的划分算法:该算法把节点看作引力实体,然后将物理学中的万有引力定律引入社团划分算法中。首先计算已知标记节点与未知标记节点之间的引力作用值的大小,然后分析并比较每个已知标记节点对未知标记节点引力作用值的大小,最后根据一定的规则将未知标记节点进行标记。在实验中,利用此算法对一些实际网络进行分析,结果表明虽然运行速度比信息传递模型算法有所下降,但精度有所提高。而与传统算法相比,虽然其时间复杂度相对较高,但是精度相对较高。
本文所提出的两个算法均为半监督学习算法,通过已知标记与未知标记节点共同训练出学习器。运用统计学理论可以证明当无标记节点数点量越多时,可以对模型参数估计越准确,进而提高学习器准确性。算法在局部与整体体现了比较好的一致性,避免了局部最优化对划分精度的不良影响。通过对实验结果的分析可知,算法在时间和空间复杂度方面均比较低,而在准确性方面相对较高。