论文部分内容阅读
MapReduce算法是一种适用于分布式计算模型中的基于键-值对的一种算法。其根本思想是将一个大数据集(通常是T5级)分为小的模块分别进行并行计算,最后通过整合规约,得出结果。Hadoop是一个支持MapReduce算法思想的分布式框架,它提供方便的API接口使开发人员能够快速进行分布式程序的开发,而无需关心底层细节。基于在本课程中对MapReduce算法的学习与探究,本文中我们主要介绍了MapReduce算法以及Hadoop的基本架构,构建Hadoop伪分布式平台,并在此基础上设计算法处理并分析了一个图