论文部分内容阅读
伴随着计算机技术这几十年来的高速发展,互联网特别是移动互联网和智能移动终端得到了迅速的发展和普及,大量的互联网用户每天通过电脑和移动终端产生的各种各样的数据已经达到了非常惊人的数量级。如何处理和分析这些大规模的数据,发现有用的数据为人们创造价值已经成为现在非常热门的研究方向。然而面对这样大规模甚至超大规模的数据,很多传统的串行的数据处理算法已经不能够满足人们的需要,因而迫切需要研究新相应的的并行化算法,提高数据的处理效率,满足数据高速发展的新要求。网络最大流问题是图论有向图部分中一个非常重要的基本问题,在图论研究领域有着非常重要的理论意义。求解网络最大流在图论基本理论、社交网络中的Web社团发现、图分割、快递企业选址和交通分配等方面有非常广泛和重要的应用。然而在互联网大数据计算的新要求下,传统的求解网络最大流的串行算法目前已经难以满足新的计算要求。研究求解网络最大流算法的并行化实现是互联网发展带给我们的新的课题。在数据量和数据规模不断增大的形势下,为了研究最大流问题的并行算法,本文充分分析和研究了现有的最大流算法和基于BSP模型的Hama图计算框架,根据流网络中最大流算法的特点,结合Hama中通过消息传递的方式来实现图(Graph)的计算,设计并实现了分布式的Sense-Push最大流算法。本文详细介绍了Sense-Push最大流算法的设计思路以及设计过程。详细讲解了Sense-Push算法的思想和流程,同时从理论上证明了Sense-Push算法的正确性。接着详细介绍了Sense-Push算法中重要模块的代码实现,让读者对算法的理解更加清晰。同时我们将Sense-Push算法移植到到Hama图计算框架,突破性的实现了最大流算法在Hama框架下的分布式运行。最后,本文讲解了Sense-Push最大流算法在Hama上的实现。