论文部分内容阅读
近年来,物联网、互联网和社交网络的快速发展,网络中数据的存储量正在以爆炸式的速度增长,并且与现实自然世界联系愈加紧密。图结构,作为一种非常重要的数据表示形式,图形数据的规模也随着网络数据的增长变得越来越大。经过调研发现大规模图数据具有一个重要特性:结构上具有幂律分布特性,即图中少量节点的度数非常巨大,而大多数节点的度数偏低。研究者已经提出了许多图计算系统来解决复杂的大规模图计算问题。分布式Graphlab和PowerGraph是两个具有代表性的图计算系统,它们展示出卓越的性能、高可扩展性和容错性。然而,这些中的计算节点之间存在过多的通信开销,降低了处理效率,这为大规模图数据的分析和处理带来了新的问题和挑战。本文首先对一些具有代表性的图计算系统进行了介绍,分析比较了现在主流的图计算系统,并总结各自的优缺点。在考察了Graph Lab和PowerGraph等图数据处理系统和网页排名算法之后,本文发现通信开销具有优化的可行性。PageRank算法是Google用来标识网页的等级/重要性的一种方法,目前很多链接分析算法都是在PageRank算法的基础上衍生出来的,PageRank对于网页排名的计算具有重要意义;其次,本文提出了一种新的通信机制——LowGraph。在分布式图并行计算的同步阶段识别和消除网页排名算法冗余的通信开销,本文将该通信机制集成到PowerGraph系统中,并实现了基于LowGraph通信机制的PowerGraph系统;接下来,针对PowerGraph在抽象计算的同步阶段盲目同步所有镜像副本,产生了一些不必要的通信开销问题,本文对PowerGraph进行了改进,并将改进后的系统命名为LowPower Graph。LowPowerGraph在抽象计算的信息同步和信息收集阶段识别和消除不必要的通信,以减少网页排名算法的通信开销,提高图数据处理性能。LowPowerGraph消除了没有输出边的镜像副本的同步通信和没有输入边的镜像的收集通信。最后,本文提出一个边方向感知的图分割策略(EdgeFeel),该策略为每个顶点最优地隔离输出边和输入边,提高只有输入边的镜像副本和只有输出边的镜像副本的比例,以最大化LowGraph和LowPowerGraph的效果。本文对LowGraph、LowPowerGraph和EdgeFeel进行了有效性和执行效率验证。实验结果表明本文所提LowGraph机制不仅可以减少通信开销,而且可以减少网页排名算法的运行时间;LowPowerGraph可以显著减少PowerGraph的通信开销,提高PowerGraph图数据处理的性能;本文所提出的EdgeFeel策略可以大幅提高LowGraph和LowPowerGraph的效果。