基于MLFQ的Hadoop作业调度算法研究与优化

来源 :东北大学 | 被引量 : 3次 | 上传用户:BB8120
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
“云计算”被Google、Amazon的公司提出之后,得到了工业界、学术界的广泛关注。近年来,云计算技术在工业界、学术界联合推动下获得了巨大的发展,大量的云计算系统被投入使用,其中有很大一部分基于Hadoop平台。Hadoop平台是一个开放源代码云计算框架,最大的优势是实现了并行化对开发者的透明性,使开发者开发云计算应用系统时不必关心并行性细节,这些细节则由Hadoop框架在底层完成。作业调度是Hadoop平台的核心之一,其主要功能是控制集群中作业的执行顺序以及分配计算资源,这直接关系到Hadoop平台的整体性能和系统资源的利用率。论文基于Hadoop 1.2.1平台,首先对Hadoop作业调度机制进行了详细的研究,在此基础上提出了一种新的Hadoop作业调度算法。论文的主要贡献如下:1.提出了一种基于多级反馈队列(Multi-level Feedback Queue简称MLFQ)的作业调度算法。该算法最先应用在操作系统中对进程进行调度并取得了很好的效果,论文将算法改造后应用到Hadoop的作业调度中,解决了集群中小作业公平性的问题,并有效提升了平台的整体性能。2.为了解决严格遵循MLFQ算法思想遇到的两个问题作业本地性差、Reduce槽囤积,论文提出了MLFQ算法的两种优化方案Map任务延迟调度算法、Reduce任务延迟调度算法分别解决这两个问题。3.搭建了Hadoop平台,对基于MLFQ的Hadoop作业调度算法及两种改进算法进行了多组实验,并对所得实验数据进行对比分析,结果表明,论文提出的算法能够有效的缩短作业的平均响应时间,提高了系统的吞吐率。
其他文献
信息战已成为未来高技术局部战争的主要作战样式,制信息权和制空权、制海权一样,成为战争胜负的关键。导航战是信息战的重要组成部分,现代战争精确快速的定位和导航是提高军事武
随着Internet技术的发展,加强实验环境的建设,利用模拟(Simulation)技术辅助解决网络的鲁棒性、可维护性和传输可靠性等问题是当前研究的一个热点。网络模拟是进行计算机网络
随着互连网的迅猛发展,越来越丰富的信息展现在人们面前,但是面对海量的互联网资源,人们感兴趣的往往只是某一领域的专门信息。如何从纷繁芜杂的网络信息中快速准确地找到人
随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们拥有和积累的数据越来越多。数据挖掘在最近几年里已被数据库界广泛研究和应用,而关联规则的挖掘在其中占有很重要
目前,交通安全问题成为世界性的广泛话题,根据统计,大约有40%的交通安全问题来自疲劳驾驶。研究驾驶员疲劳监测方法,用以预防交通事故的发生,具有非常重要的现实意义。  本文在对
随着互联网Internet的飞速发展,网络上的信息呈指数增长。如何能够更有效、更准确地找到自己感兴趣的内容,关系到我们能否充分利用这个巨大的信息资源,这已成为基于Internet
在信息技术日新月异的今天,多数人在日常工作学习中都会接触到大量的中文信息,尤其是在互联网上,存在的中文网页更是数以万计。如何利用计算机技术快速有效的获取相关信息已
随着互联网和相关技术的飞速发展,网络的应用日益广泛,网络业务量也随之激增。在这样的情况下TCP的固有缺陷表现的愈发明显,SCTP具有下一代互连网多宿多流等相关特性,因此SCT
近年来PET作为核医学成像领域重要的临床检查影像技术已得到广泛应用,成为脑神经系统疾病检查的重要手段。PET脑影像多模配准技术通过在脑影像与标准图谱之间建立匹配关系,使
随着网络信息的爆炸性增长,如何在浩瀚的网络信息资源里查询出自己想要的信息变得越来越重要。现有的通用搜索引擎在一定程度上满足了用户的需求,但是它们完全忽视了用户的兴