论文部分内容阅读
随着信息技术的迅速发展,人类社会已经迈入了复杂网络时代,各种超大规模网络不断涌现,例如智能电网、电话网络、在线社交网络、引文网络等。大规模复杂网络中的一些结构特征往往在整体范畴具有相对不变的统计规律,可用来理解人类社交关系的结构和行为。社区发现算法根据网络的拓扑结构探索网络关系的群组特征,识别出网络中有意义的、自然的、相对稳态的社区结构,对网络信息的搜索与挖掘、舆论控制、信息推荐以及网络演化预测具有重要价值。如何对大规模在线社交网络进行重叠社区发现及对动态网络演化特征进行研究成为当前一个研究热点。由于传统以节点为对象的社区发现算法不能很好地处理社区重叠部分,本文基于边聚类思想,利用度分布符合幂律分布的性质,提出了一种快速边聚类重叠社区发现算法HLink (Hierarchical Link)。在提高算法运行效率上,分别在连边相似度计算和构建树图上进行加速。通过实验证明该算法在处理百万边规模的复杂网络上速度有明显提升,并且划分社区质量较高。随着在线社交网络规模地增大,传统串行算法在单机计算上遇到内存瓶颈问题,将社区发现算法与MapReduce计算框架结合,提出了一种适用于超大规模复杂网络的并行重叠社区发现算法PHLink(Parallel Hierarchical Link)。该算法将网络进行分割,避免了图计算中的强耦合性,然后进行边合并发现社区结构,解决了大规模复杂网络的分布式存储和计算问题。通过真实网络测试,验证了 PHLink算法在并行环境下具有良好的加速性和伸缩性,可以处理边规模达千万级别的超大复杂网络。另外,在线社交网络并非一成不变,其网络结构会随着时间变化而动态改变。找出社区之间的演化特征及演化路径对于深入研究网络有很大帮助。本文提出了一种基于点重合的矩阵相乘匹配算法,算法核心主要将相邻时间片的网络划分以矩阵形式表示,然后相乘得到匹配矩阵,通过匹配矩阵能够直观明了地发现相邻时间片上社区的结构变化,并提高了发现网络演化路径的精确度。