论文部分内容阅读
当前社交网络、生物网络等构成的图的规模正迅速增长。许多应用场景都需要完整的图信息,但介于普通机器已无能力单独存储整张图,通过对完整的图进行计算从而进行信息提取变得越来越具挑战。为解决该问题,图的合理划分显得非常必要。现有图划分方法在处理大规模图数据时,不仅有巨大的计算和通信开销,同时也要求图的完整信息。另一方面,以在线社交网络Facebook为例,其用户账户每天都在创建或删除,朋友之间不断地分享图片、文字等信息;由此可见图已经不再是静态的,而是处于动态变化中。能否高效地对动态图进行计算处理,正被作为大数据处理领域的热点问题进行研究。在动态环境下图的平衡划分问题被称为流式图数据的划分问题。流式图数据的处理在包括划分聚类算法、分发策略等各个层面都面临巨大挑战。Assc是一种可扩展的面向关联的流式图数据划分方法,旨在处理此类规模持续增长的大规模流式图数据。该方法首先采用混合近似PageRank算法计算节点PageRank值并排名,然后根据节点的排名和关联关系,采用关联聚类算法对其聚类。Assc采用的策略一方面能对节点的连接能力进行量化评估,并以节点PageRank值低到高排序作为处理顺序,避免过早出现规模非常大的划分集合,从而确保划分的规模相似;另一方面充分挖掘节点间的关联关系,在聚类的每一步中尽可能将关联关系大的节点划分至同一个划分集合,提升划分的相关性的同时也降低了通信开销。最后,对比评估Assc与Hash和METIS两种算法。实验结果表明,在大量收集的图数据集上分别运行三种方法,Assc可以处理规模包含上亿节点的流图数据,评价指标边割、通信量的表现均优于Hash和METIS。流划分方法Assc不是为了替代全信息图划分,特定系统或应用需要足够好的划分也就意味着仍需要重划分图,即便图信息已被完全载入存储集群中,而Assc可以作为预处理步骤嵌入到普通的图处理系统中。