大数据环境下Hadoop作业调度算法研究

被引量 : 10次 | 上传用户:zhwa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Hadoop分布式系统框架有效解决了大数据环境下数据的存储和处理问题,其性能与作业调度密切相关。采用高效的调度方案,可更加充分合理地的分配及利用云计算资源,针对Hadoop作业调度算法的研究对于提高Hadoop系统的整体性能具有重大的现实意义。本文对Hadoop现有的作业调度算法及异构环境下提出的LATE调度算法进行了研究与分析,重点针对LATE调度算法在推测式执行机制上存在的不足进行了优化。对于大型Hadoop集群,数据跨机架存储概率较高,而LATE调度算法假定大部分的Map任务都是在本地读取数据执行,并且没有考虑reduce任务是否本地读取数据执行,导致系统大部分的时间都消耗在机架间的数据传输上。针对LATE调度算法在推测式执行机制中没有考虑数据局部性的问题,本文在第四章提出了一种基于LATE调度算法的数据局部性改进算法。该算法在LATE调度算法的基础上,改进了推测式执行中慢任务的判定方法,并且在为节点空闲槽分配备份任务时,首先考虑本机机架上是否需要备份执行任务,如果没有,才会到其它机架上寻找合适的备份任务执行,从而提高了系统的执行效率。在实际的大型Hadoop集群环境中,运行的作业会涵盖CPU密集型和I/O密集型两种作业,其所需的系统资源是不同的。目前,Hadoop调度算法并没有针对这两种作业的并行化进行改进,使得系统的资源竞争仍然严重。针对这个问题,本文第五章提出了一种基于LATE调度算法的资源互补分配改进算法。该算法在LATE调度算法的基础上,通过对Hadoop集群的作业负载和节点负载进行合理的分类,充分考虑CPU和I/O密集型作业所需系统资源是互补的这一情况下,对备份任务进行合理的调度执行,极大改善了因为资源竞争和不合理调度导致系统性能低下的问题。为了尽可能的验证本文算法的优势,本文针对第四章和第五章分别搭建了相应的Hadoop集群环境,进行了仿真验证。其中,第四章模拟了两个机架,第五章为了控制变量,采用简单集群。实验结果表明,本文算法在一定程度上提高了Hadoop集群的处理性能。
其他文献
鱼水分离器和鱼体选别机是秋刀鱼分鱼系统的重要组成部分.鱼水分离器是远洋捕捞中用于渔获和海水分离的主要工具,鱼体选别机是远洋捕捞中鱼获大小分级的主要工具,确保鱼体低
4S店的汽车特许经营模式核心是“四位一体”,由整车销售、零配件供应、售后服务、信息反馈四个部分组成。1998年后我国开始引入4S店服务模式,它是从欧洲传过来的。其具有很多
以阿克苏地区主栽品种‘灰枣’和‘骏枣’为对象,发芽后进行冻害调查,根据冻害发生率,分析气象因素、树龄、品种、养分和水分管理对枣树冻害的影响效应,以解决阿克苏地区枣树
当我们谈起微商的时候,我们通常首先想到的是通过微信朋友圈进行营销和销售的人群。但是,作为移动互联时代最具代表性的商业模式之一,微商所代表的含义远远不止于此。在快速
校企合作模式按合作的程度可分为轻度合作模式、中度合作模式及深度合作模式。随着校企合作模式的探索与改革,合作中出现的风险也逐渐凸现。树立风险意识,寻求应对策略是降低
结肠癌是常见的恶性肿瘤之一,但其发病机制未明,以现有手术、放疗、化疗等治疗手段进行治疗,预后不佳。所以,积极寻找结肠癌的发病机制,尤其是努力找寻可提供早期诊断线索的
市场经济是法治经济,合同是商品经济的产物,是商品交换的法律表现形式。现代企业的经济往来主要是通过合同形式进行的,所以,合同管理作为现代企业法律顾问制度的重要内容之一
期刊
数列求和是数列的重要内容之一,也是高考数学的重点考查对象.高考对数列求和的考查主要有两种形式,一种是直接利用等差、等比数列的前n项和公式考查等差、等比数列的求和问题
本文结合Excel的运用,通过案例介绍成本法下直接编制合并财务报表时有关项目的抵销处理,使合并财务报表的工作变得简化。
文化领导权问题是马克思主义政治理论的重要问题之一,中国共产党自成立起始终高度重视。一系列围绕互联网应运而生的新媒体蓬勃发展,由于新媒体工具的大众化和去中心化,使中