面向负载均衡的并行分布式重叠社区质量指标计算的研究

来源 :深圳大学 | 被引量 : 0次 | 上传用户:gankai0319
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
真实世界的网络例如社交网络,存在重叠社区结构。社区结构将网络中的顶点划分为多个不同的组,一个组即是一个社区。当网络中一个顶点可以属于多个社区时,该社区结构即是重叠社区。通过挖掘复杂网络中的重叠社区,我们可以发现网络中隐藏而又有意义的属性和结构。不同的重叠社区发现算法挖掘到的社区结构自然不同,因此使用重叠社区质量指标来衡量相应算法的有效性是非常有必要的。随着大数据时代的到来和数据规模的快速增长,大规模网络中的重叠社区得到巨大的增长。然而,计算指标的高度复杂性对现有的串行算法提出了巨大的挑战,同时集群中节点之间的数据划分对并行分布式算法的性能有关键性的影响。现有的串行算法计算重叠社区指标的性能有待提高,因此本论文设计了一种用于重叠社区质量指标计算的负载均衡的并行分布式算法。本文首先分析了现有的计算两类重叠社区质量指标的算法,发现基于社区标签对计数算法具有更低的时间复杂度,但目前只有串行算法,因此提出了一种基于社区标签对计数并行分布式算法(简称P&D算法)。接着,通过分析指标计算特性发现,本文研究的两类指标均需要计算社区的交集大小,因此本文的P&D算法重复利用中间结果,同时计算出全部两类指标。然后,对现有的数据划分策略进行了分析归纳,并针对重叠社区质量指标计算提出了一种基于负载预估的贪心(Greedy-based)划分策略,以此来均衡每个节点间的负载。最后,本文利用五个真实大规模网络数据集进行了实验,对本文提出的P&D算法和数据划分策略进行验证。实验结果证明,相对于现有的Hash-based和Range-based的数据划分策略,本文提出的基于负载预估的贪心划分策略在内存、通信和CPU负载分布以及总体执行时间上均获得较优的表现。结果验证了本文提出的Greedy-based数据划分策略相比现有的策略,在并行分布式计算重叠社区质量指标上能更好地均衡节点间的负载。同时,P&D算法在执行时间、加速比和可扩展性上相比现有串行算法(包括Clubmark和Mutual3)的性能有更好的表现。结果表明,本文提出的P&D算法比串行算法在执行时间上获得了10.7%~89.4%的提升,并实现了1.12到9.43倍的加速。
其他文献
随着社会的快速发展,废水的排放量持续增多,其中重金属、染料、抗生素等污染物的排放不断增加,水资源短缺和水污染问题日益严重,严重威胁着水环境和人类健康。吸附法具有操作
石墨烯作为新型二维碳材料,由于具有独特的能带结构、大的比表面积、高的载流子迁移率等优异的性质引起了广泛关注,在催化、储能、微电子器件、功能复合材料、高灵敏度传感器等领域中具有广阔的应用前景。目前,制备石墨烯的方法有很多,例如机械剥离法、化学气相沉积法(CVD)、碳化硅(SiC)热解法、化学自组装方法等。其中,SiC热解法制备的石墨烯能够与现代半导体工艺相兼容,避免石墨烯转移工艺对石墨烯完整性和电学
合成硅酸盐类产品已经广泛应用于建筑、医药、美妆、涂料、水处理等行业,但在造纸行业中的研究和应用还不多见。由于其优良的物理性能,可控的粒子结构,使其具有作为造纸功能
随着特高压输变电的发展,对绝缘纸的性能提出严苛的要求,如何提高绝缘纸的性能面临巨大挑战。此外,由于油纸绝缘体系的复杂性,能否获得更为准确的影响机制和计算方法,以缩短
显著性目标检测技术在计算机视觉领域具有重要的应用价值和理论研究意义,它主要通过模拟人类视觉注意力机制,自动检测图像中最引人注目和吸引眼球的目标或区域。目前,随着此
CO低温脱除技术广泛应用于聚合物燃料电池(PEMFC)中微量CO脱除、烯烃原料净化、汽车尾气净化、烟草降害等领域,而Cu O-CeO2和Co3O4-CeO2催化剂,因具有优良的CO催化氧化活性,且
稀疏优化是目前最优化领域中非常热门的研究前沿课题,在压缩感知、图像处理、机器学习、生物信息等领域都获得了成功的应用.它旨在从少量样本中恢复高维度的稀疏信号;为此,学
热能储存技术能有效提高可再生能源的利用效率,解决太阳能间歇不稳定的缺陷,减少化石原料燃烧带来的环境问题,为热能的存储和持续稳定供应提供了方法。热能能以三种方式存储:
各种各样的持久性有机污染物(POPs)所引起的生态水质环境恶化已成为当前全球社会关注的热点问题。芬顿技术作为一种重要的高级氧化技术,被广泛用于降解POPs。微生物电芬顿技术(MEF)是一种由芬顿技术与微生物燃料电池技术结合形成的新型去污技术,因为具有高效率和环境相容性强等独特的优势,近年来受到研究者们的广泛关注。但MEF还存在严苛的pH环境以及系统耗材昂贵等问题,其实际应用仍面临巨大的挑战。本研究
复杂网络是指数量巨大且具类型各异、动力学行为丰富的节点和随时间演化结构复杂的边连接而构成的网络,是一种描述自然、社会和工程中相互关系的高度复杂模型.由于其普适性,