论文部分内容阅读
云计算是继上世纪80年代大型计算机到客户端-服务器的转变后的又一种巨变,近年来在全世界广泛普及。它将大量网络连接的普通计算资源整合起来,构成一个更大的计算资源池向用户提供服务。在云计算平台中,Hadoop凭借其开源的优势得到众多公司以及云计算爱好者的青睐。Hadoop具有可扩展,经济,可靠,高效等特点,能充分利用集群的高速运算和存储能力来计算指数级增长的海量数据。随着Hadoop研究和应用的逐步深入以及人们对日新月异的信息化社会生活效率和工作效率的提高,优化Hadoop的性能以提高任务的整体响应时间成为广大学者关注的重要课题。
为了提高Hadoop的任务整体响应时间,从各个方面优化Hadoop的集群性能,使得在更短的时间内完成更多的任务,本文基于任务信息反馈机制的设计方法,对Hadoop平台的性能优化方法进行了改进与实现。
首先对目前流行的Hadoop平台性能优化方法进行比较,探讨其存在的优势和劣势。深入研究Hadoop任务调度和执行流程。然后基于Hadoop调度模型作动态(调度)负载均衡的研究,对Hadoop默认调度器进行改进,使每个节点尽可能快地完成任务,从而使集群整体响应时间缩短。
运用任务信息反馈机制的设计方法,提出了一种基于CPU占用率的动态调度改进算法。本算法以CPU占用率作为负载指标,在循环分配任务时根据反馈的负载指标判断节点负载情况,动态适应负载变化。在Eclipse平台上编译Hadoop jar包,构建Hadoop集群,在Hadoop-0.21.0默认版本和改进版本上分别进行集群性能测试。在Hadoop集群改进前后的反复测试对比下,改进后的版本比改进前效率在百万数量级的数据量上至少提升了6%。
众所周知,Hadoop集群适合处理海量数据集的运算。在对Hadoop集群整体性能的分析中得知,随着任务体系的不断增大,Hadoop集群的整体响应效率有逐渐增大的趋势,说明本改进算法更适合长作业计算。这也充分表明对Hadoop性能优化方法研究的重要性。