基于调度器的Hadoop性能优化方法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:lamm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
云计算是继上世纪80年代大型计算机到客户端-服务器的转变后的又一种巨变,近年来在全世界广泛普及。它将大量网络连接的普通计算资源整合起来,构成一个更大的计算资源池向用户提供服务。在云计算平台中,Hadoop凭借其开源的优势得到众多公司以及云计算爱好者的青睐。Hadoop具有可扩展,经济,可靠,高效等特点,能充分利用集群的高速运算和存储能力来计算指数级增长的海量数据。随着Hadoop研究和应用的逐步深入以及人们对日新月异的信息化社会生活效率和工作效率的提高,优化Hadoop的性能以提高任务的整体响应时间成为广大学者关注的重要课题。   为了提高Hadoop的任务整体响应时间,从各个方面优化Hadoop的集群性能,使得在更短的时间内完成更多的任务,本文基于任务信息反馈机制的设计方法,对Hadoop平台的性能优化方法进行了改进与实现。   首先对目前流行的Hadoop平台性能优化方法进行比较,探讨其存在的优势和劣势。深入研究Hadoop任务调度和执行流程。然后基于Hadoop调度模型作动态(调度)负载均衡的研究,对Hadoop默认调度器进行改进,使每个节点尽可能快地完成任务,从而使集群整体响应时间缩短。   运用任务信息反馈机制的设计方法,提出了一种基于CPU占用率的动态调度改进算法。本算法以CPU占用率作为负载指标,在循环分配任务时根据反馈的负载指标判断节点负载情况,动态适应负载变化。在Eclipse平台上编译Hadoop jar包,构建Hadoop集群,在Hadoop-0.21.0默认版本和改进版本上分别进行集群性能测试。在Hadoop集群改进前后的反复测试对比下,改进后的版本比改进前效率在百万数量级的数据量上至少提升了6%。   众所周知,Hadoop集群适合处理海量数据集的运算。在对Hadoop集群整体性能的分析中得知,随着任务体系的不断增大,Hadoop集群的整体响应效率有逐渐增大的趋势,说明本改进算法更适合长作业计算。这也充分表明对Hadoop性能优化方法研究的重要性。
其他文献
信息技术的发展推动了一个新的概念的产生——物联网。以此为契机,无线传感器网络渐渐进入人们的视野中。加之近几年来自然灾害的频发使得无线传感器网络越来越受到大家的关注
在科技突飞猛进的今天,公安执法部门为了加大对违法犯罪行为的打击力度,已经建立起一套专用基础网络——公安通信专网,并加大了数据信息的收集整理力度——车辆管理、驾驶员管理
土地覆盖是指土地表面的植被和人工建筑,土地利用则反映了人类对土地自然属性的改造。它们的分布和变化对于了解土地利用变化情况和后续土地资源利用政策制定具有重要的指导意
复杂、多变的运行环境以及内部缺陷经常会导致软件的运行时行为偏离对应的需求规约,从而导致严重的系统失效或需求不满足。特别是对Internet环境下具有自主性、协同性、反应
随着新一代无线通信技术和智能移动终端技术的发展,移动终端表现能力差,用户交互能力低的弊端已经得到改善,并逐步取代传统PC机,成为互联网业务的承载主体。然而,移动终端计算存储
随着信息化时代的到来,科技的发展与互联网的普及,物联网(Internet Of Things,IOT)作为信息技术的重要组成部分逐渐成为社会关注的焦点。物联网,顾名思义,就是通过互联网将物
随着电子取证领域的不断发展,手机取证逐渐成为重点关注和研究的方向。在取证调查过程中,取证调查人员常常因急于获取手机证据而忽视手机数据的完整性,从而影响手机中的电子证据
随着基因芯片技术的广泛应用,基因表达数据呈爆炸式增长,如何从该海量数据中获取有生物学意义的信息已成为生物信息学研究的热点。功能相近的基因通常具有相似的表达模式,因此,可
当今,随着城市化的进程,城市建筑物以及城市人口密度的不断增加,随之而来的严重灾害和重大突发性公共事件的威胁也越来越严重,因此,城市建筑物内人员的安全疏散研究也越来越重要。
近年来,随着互联网技术日新月异的发展,网络舆情的研究逐渐成为国内外专家学者研究的热点之一。目前对网络舆情的研究主要从新闻传播学、社会心理学、系统动力学等角度进行,研究