论文部分内容阅读
近年来,随着信息技术的高速发展,社会网络数据规模呈现爆炸式增长,网络结构日趋复杂。其中,社区结构是复杂网络中普遍存在的一种拓扑特性,而在真实的社会网络中,社区结构通常是重叠的,如某个人可能同时活跃在多个兴趣小组中。因此,近年来挖掘复杂网络中的重叠社区结构成为很多专家学者研究的热门课题之一,但是目前该课题仍未得到完美的解决;同时,目前的重叠社区发现算法多是基于网络的拓扑结构进行研究,很大程度上忽略了网络中节点所特有的属性信息在挖掘社区结构中的作用,而属性信息对于挖掘到更加准确的社区结构具有很大的帮助。因此,为了解决目前重叠社区发现算法中存在的问题,本文在以下几个方面进行了研究与讨论。首先,借鉴 COPRA(Community Overlap Propagation Algorithm)算法的多标签传播机制,针对COPRA算法目前存在的问题,提出一种基于新的标签选择策略的COPRA 优化算法 COPRA-NLS(COPRA-New Label Selection),并最终在 BC-BSP 平台上实现该算法。新的标签选择策略引入了网络中的局部聚集系数和节点最近更新的标签信息,有效地降低了标签更新的随机性,提高了算法的迭代效率。其次,基于多标签传播思想,本文提出了一种同时考虑网络的拓扑结构和属性信息的重叠社区发现算法SA-COPRA(Structure and Attribute-COPRA),其中主要工作包括:(1)针对属性图设计了一种同时考虑拓扑结构和属性的重叠社区发现的框架;(2)提出了一种基于拓扑结构和属性的图统一计算模型,该模型通过运用不同的计算方法对图中的结构边和属性边设定不同的权值,然后运用合并规则来统一度量图的拓扑结构和属性,形成统一的扩展图;(3)采用邻接随机游走模型来计算扩展图中节点间的相似性,生成相似度矩阵;(4)结合扩展图及相似度矩阵,采用COPRA算法进行重叠社区发现,并引入了节点间的相似度进行比较。最终发现的重叠社区内部结构紧密,且社区内属性信息是同质的;非重叠社区之间结构松散,属性信息是异质的。最后,讨论了在BC-BSP平台实现时采用的一些技巧,通过对BC-BSP系统全局聚集模块的优化,在实现时采用HDFS存储聚集值可以有效地提高算法的扩展性。通过在真实网络数据集和人工网络数据集上的实验表明,在大规模社会网络中,本文提出的两种算法可以在有效的时间内挖掘出高质量的重叠社区。