论文部分内容阅读
云计算的概念被提出来的短短几年间,在学术界和工业界的共同推动下取得了巨大的进展。在这个过程中出现了很多的云计算系统,其中Hadoop平台作为一个开源的系统被许多公司采纳。Hadoop能够实现对海量数据的存储,并且提供了完善的容错处理;同时它采用MapReduce并行计算框架,在底层自动实现了并行化,能够使开发者像开发普通程序一样开发并行程序。
作业调度技术作为Hadoop平台的核心技术之一,其主要功能是对作业执行的顺序和计算资源的分配进行控制,这直接关系到Hadoop平台的整体性能和计算资源的利用情况。但是现有的调度算法均存在不足之处,因此对它们进行改进对于提高Hadoop平台的整体性能和计算资源的利用效率具有重要的意义。
本文首先介绍了云计算的概念以及Hadoop平台的架构,然后对Hadoop平台现有的三大调度算法:FIFO调度算法、公平调度算法(Fair Scheduler)和计算能力调度算法(Capacity Scheduler)进行分析,并指出它们的优缺点。在此基础上,提出了基于公平的Hadoop贪心调度算法,并详细介绍了该算法的目标、思想和设计方法。最后对基于公平的Hadoop贪心调度算法进行编码实现和实验验证,实验结果表明该算法能够成功地实现预期的目标。