论文部分内容阅读
随着互联网技术的发展及其在社会各个层面的不断深入和普及,社会计算继物理计算和生物计算之后,逐步成为科学计算研究的焦点和前沿课题,社区识别是社会计算领域重要的基础性研究问题,吸引了来自计算机科学、社会学、物理学、生物信息学及管理学等多领域科研人员的广泛关注。与网络的无标度特性、小世界特性等基本统计特性相并列,社区结构是社会网络中真实存在的重要拓扑属性之一,社区识别的研究目标在于揭示社会网络中普遍存在的社区结构。社区的识别有助于帮助人们发现网络中隐藏的规律,从而理解网络的功能,进一步对网络的行为进行预测并有效地指导网络的演化,驱动网络向着有利于人类生存的方向发展。 本文针对社会网络的社区识别问题展开研究,整体上采用一种递进式的研究路线,从静态社区识别的基本问题入手,采取多种方法对非重叠、重叠社区进行分析,进一步过渡到动态社区识别的研究,有效地处理随时间演化的网络社区识别问题。本文所提出的算法是对现有方法的改进、完善和发展,对社区识别方法体系有益的扩充,力求为社会网络结构分析的相关理论研究及技术应用提供基础性的支持。具体来说,本文主要从非重叠社区识别、重叠社区识别、基于链接的社区识别及动态社区识别等四个角度对社会网络社区识别技术进行深入探索,提出相应的社区识别模型,在真实社会网络和人工基准网络上进行测试,并与多个同类型的经典算法进行对比分析。主要研究内容如下: (1)首先研究非重叠结构的社区识别。GN算法的提出,引领了社会网络社区识别研究的热潮,很多算法从不同的角度、使用不同的模型进行探索,产生了一些经典的算法并得到了广泛的应用。但是随着互联网的发展,大规模社交网站迅速推广,海量数据涌现出来,对社区识别算法的要求越来越高。大多数非重叠社区识别使用网络全局结构,计算复杂度高,还有些算法需要根据先验知识预设社区的数目等信息。因此,需要在降低算法复杂度、减少先验知识约束等方面对算法加以改进。为了能够降低算法复杂度,提高效率,本文提出一种节点重要性评估方法,选出网络中的部分种子节点,围绕种子节点建立初始社区,采用适应度函数对初始社区进行局部扩张,为未知社区归属的节点找到其最佳社区归属。该方法不需要任何先验知识,并且具有较高的执行效率和准确度。 (2)在现实生活中,人们往往具有多重属性并同时活跃在多个社区内,如某一家族的成员会拥有其朋友圈,同学圈,工作伙伴圈等,某一研究人员可以活跃在多个不同的研究领域,特别是随着在线社会网络的发展,通过社交网站建立起各类兴趣圈子,这些圈子之间的成员均会出现重叠现象。因此,在社会网络中寻找这类具有重叠节点的社区结构更具现实意义。重叠社区识别问题也已有一些研究成果,但在算法稳定性、准确性及重叠节点的比率的控制等方面还存在较大的提升空间。本文提出一种基于拓扑势的局部化重叠社区识别算法,适用于节点的重叠度相对较低的网络。首先,引入拓扑势描述节点间的相互作用,以动态设定各节点的影响力阈值;其次,提出一种节点局部相似性的度量指标,生成相似度矩阵;然后利用节点的影响力阂值动态约束相似度矩阵,建立以动态相似度矩阵为输入的标签传播算法。大量的实验表明,算法既以较高的精度探测出重叠社区,又保持了标签传播类算法执行效率高的优势。 (3)基于节点结构的社区识别已有大量的研究成果,但是,一些研究人员注意到基于链接的方式在识别重叠社区时有着天然的优势,尤其是针对节点的重叠度相对较高、网络链接密度相对较大的网络。因此,将研究对象由节点转向链接成为重叠社区识别的有效手段。但在研究过程中发现,现有链接社区识别算法容易出现节点的过度重叠及孤立社区问题,为了避免这些问题,本文提出一种基于链接相似性聚类的重叠社区识别算法。该算法从多角度对链接间的相似性进行度量,发现某些度量方法在链接预测领域取得较好效果,但并不适用于社区识别。通过比较多种建模方法,选择最适合社区识别的一种,并采用Ward聚类的方法建立链接层次树,利用重叠模块度标准截取最优划分。然后将非重叠的链接社区还原为节点社区,此时自然对应着重叠结构的节点社区,进一步通过重叠率限制阈值进行优化。参数分析及实验验证表明,所提出的算法不仅执行效率较高,而且在同样基于链接的社区识别方法中执行准确度占有一定优势,有效地避免了过度重叠社区的存在。 (4)目前多数算法均是针对静态社会网络社区识别而设计,但社会网络是随时间不断地动态演化的,为了实现对社会网络信息的实时挖掘,需要研究社区演化的分析方法。现有一些动态社区识别方法往往通过在不同的时间片上反复执行静态算法来跟踪网络的演化,这类方法难以适应大规模数据快速变化的网络。大规模动态社区识别问题成为该领域最具挑战性的研究热点。因此,本文从网络增量的角度考虑社区的演化,提出了增量式动态社区识别算法。首先,以节点的局部拓扑结构为研究对象,提出了基于随机游走的社区识别算法,节点的聚类方向不需经过全局计算即可获得。然后通过分析网络在相邻时刻的变化,以四类动态事件(节点增加,节点消失,链接增加,链接删除)来刻画演化过程,并设计相应的局部调整策略自适应地实现动态社区识别。