基于半监督学习的社团划分算法研究

来源 :辽宁师范大学 | 被引量 : 1次 | 上传用户:caory
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然界中存在的大量复杂系统都可以通过各种各样的网络进行描述。近年来,复杂网络的研究受到了越来越多的关注,并渗透到从自然科学到工程科学甚至社会科学的多个领域。研究所涉及的网络主要有:生命科学领域的各种网络、Internet/WWW网络、交通网络、社会网络、科学家合作网络和语言学网络等等。随着对网络性质的深入研究,人们发现许多网络具有一个共同的性质一社团结构。诸多学者从不同角度对如何发现网络中的社团结构问题进行了研究。而当复杂网络中存在已知标记节点时,如何更好的利用已知标记和未知标记节点训练出优秀的分类器进行社团划分成为了重点问题。而半监督学习方法恰恰是针对大量无标记节点集与有标记节点集共同进行训练,以得到高性能以及较好泛化能力的学习器。因此,半监督学习的方法能够更好的解决存在已知标记节点的复杂网络社团划分问题。本文从半监督学习角度出发提出了两种算法,旨在解决当网络中存在有标记节点时的社团划分问题。   基于信息传递模型的划分算法:信息从已知标记节点开始通过节点间的边在网络中进行传播,直到每一个未知标记节点接收到所有已知标记节点的信息为止。然后算法分析每一个无标记网络所接收的每一类已知标记节点的信息量,最终根据分析结果对每一个未知标记节点进行标记。信息在传递过程中,为了更好的模拟现实中信号衰减现象,算法利用信号衰减公式来控制衰减程度。此算法为线性时间复杂度,因此运行速度较快。实验结果表明,在对一些网络进行社团划分时,此算法与GN、Wu-Huberman、Newman等算法有着相同的准确率,在个别网络中,其准确率要更高一些。   基于引力模型的划分算法:该算法把节点看作引力实体,然后将物理学中的万有引力定律引入社团划分算法中。首先计算已知标记节点与未知标记节点之间的引力作用值的大小,然后分析并比较每个已知标记节点对未知标记节点引力作用值的大小,最后根据一定的规则将未知标记节点进行标记。在实验中,利用此算法对一些实际网络进行分析,结果表明虽然运行速度比信息传递模型算法有所下降,但精度有所提高。而与传统算法相比,虽然其时间复杂度相对较高,但是精度相对较高。   本文所提出的两个算法均为半监督学习算法,通过已知标记与未知标记节点共同训练出学习器。运用统计学理论可以证明当无标记节点数点量越多时,可以对模型参数估计越准确,进而提高学习器准确性。算法在局部与整体体现了比较好的一致性,避免了局部最优化对划分精度的不良影响。通过对实验结果的分析可知,算法在时间和空间复杂度方面均比较低,而在准确性方面相对较高。
其他文献
随着计算机技术、人工智能以及计算机网络技术的快速发展,计算机快速转向开放的、网络平台的、协同工作方式,在这十多年来,源于分布式人工智能(Distributed Artificial Intel
无线Mesh网络(Wireless Mess Network)简称WMN,是一种新型的无线通信网络。它具备网状的拓扑结构的自组织性和自愈特点,并具有有效的移动用户管理和跟踪机制。无线mesh网络既
列车运行系统(TOS)是铁路智能系统(RITS)中的核心系统,也是典型的混杂系统。如何对TOS进行建模分析是RITS研究中的关键问题。由于TOS是一类强实时性的反应系统,其动态行为与
从《机器能思考吗》一文的发表开始,人工智能已经经历从专家系统到神经网络,再到今天统计学习理论几个阶段,这期间涌现了大量优秀的算法和理论。但我们也看到,在智能领域尤其
学位
随着“互联网+”概念的提出,计算机相关技术的应用逐渐与传统的行业结合在一起,为其在现代化的发展道路上创造了新的契机。然而在发展的过程中,传统行业的进步也对计算机技术
机器博弈是人工智能的一个重要研究领域,它在人工智能中的作用与果蝇在遗传学中的研究所起到的作用相似。机器博弈研究的大量成果已经被应用到很多实际的领域当中,如天气预报
随着视频编码技术、网络基础设施、信息家电以及消费电子的迅速发展,以视频内容为核心的流媒体服务已成为信息产业中最具发展前景的业务之一。基于典型的分布式系统Internet
决策树是一种有监督的归纳学习算法,它用于对有类标的数据集进行分类,而聚类是一种无监督的学习算法,它可以对无类标的数据集进行分组,使组内的数据相似性最大,组间相似度最
决策树算法是应用最广泛的机器学习算法之一,它基于一个无次序、无规则的样本数据集,试图从中提取出描述此样本数据集的数学模型。传统的决策树算法只能处理属性为离散值的样
在普适网格中移动设备作为资源被发现和管理是普适网格系统研究的重点之一。本文先提出了一种普适网格的系统结构,详细论述了移动设备作为资源在系统中被发现和管理的方法,分