论文部分内容阅读
在当前生活网络化、信息化的情况下,社会网络(social network)作为人们网上行为的抽象,成为研究人的社交规律、知识体系结构、信息传播与搜索等方面的主要研究对象。社区(community)(?)旨网络中团内紧密,团间稀疏的子图,是组成社会网络的基本单位和基本功能模块,成为社会网络研究的基础。发现合理的社区结构是当前研究社会网络的热点和难点。当今社会网络大多具有重叠性和层次性,且规模大。节点社区发现方法将节点聚类,链接社区发现方法将一组关联紧密的边的集合聚类。每个节点包含多个社区的边,从而更直观地解释节点的重叠性。但是已有链接社区发现算法复杂度较高,不能有效作用于大规模网络,所以本文提出了一种能在线性时间内发现链接社区的算法LCDCC (link communities detection on clustering coefficient),利用局部集聚系数高效准确的发现有意义的重叠社区。同大多数社区发现算法一样,LCDCC完全依赖网络拓扑,当今网络噪声大的特点使其社区发现精度下降。但在当前融合了信息网特征的社会信息网中,节点具有内容,结合内容的链接社区发现可以在有效利用网络信息的基础上提高社区发现的准确性。所以在LCDCC算法的基础上加入内容信息提出了CELCD (content-based effective link communities detection)算法。使用带权局部集聚系数把节点内容信息融入拓扑结构,使用链接社区发现方法,针对社会信息网络进行研究,在与网络规模呈线性时间内发现网络中有意义的重叠社区。CELCD不仅可以探测到传统的社区结构,还可以探测到其他广义的网络社区结构。通过与现有的各类代表性方法在人工网络和真实世界网络上的实验对比,表明在无内容的网络上LCDCC和CELCD能够在线性时间内有效发现社区结构,在有内容的网络上CELCD (?)能够比同类算法更高效的发现重叠社区。