基于Hadoop平台的MapReduce调度算法研究

来源 :南京农业大学 | 被引量 : 0次 | 上传用户:fronj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
云计算是目前商业与科研方面的研究热点,Hadoop作为Google云平台的开源实现,为广大研究人员提供了研究基础。在Hadoop架构中,MapReduce调度算法决定了作业调度的先后顺序与作业被分配的计算资源,因此对Hadoop MapReduce调度算法的研究与改进,对于提高Hadoop云平台的执行效率具有积极的影响。在Hadoop中,由于集群内部原因,会有一些任务的执行效率严重低下,影响作业的完成,成为落后任务。在Hadoop MapReduce的设计中,会采用推测式执行的方式,为落后任务执行备份任务,从而提高了系统的整体效率。但是,无论是Hadoop MapReduce原有的推测式执行方法,还是其它改进的备份任务调度算法,都不能有效地为落后的Reducer任务选择备份任务。在对已有调度算法进行充分研究的基础上,本文提出了一种针对Reducer任务的备份任务调度算法。改进算法与原有算法相比,有如下进步:(1)该算法摒弃了以整体进度作为落后任务判断依据的方式,通过分阶段进行对比的方式,将任务现阶段的执行速率与集群中该阶段的平均执行速率进行对比,找出落后任务,提高了落后任务查找的准确性;(2)改进算法采用了三队列的方式分别存储处于不同阶段的Reducer落后任务,并根据请求任务节点的实际情况为其分配适合该节点执行的任务,以达到减少备份任务完成时间的目的;(3)改进算法在备份任务执行节点的选择上充分考虑了任务的数据本地性要求,以机架为单位,分别计算每个机架为Reducer任务提供的输入数据数量,以此来决定备份任务执行的节点,从而降低了网络负载。该算法能在节点异质性的情况下,满足备份任务选择的准确性、数据本地性等多方面要求,从而使备份任务的执行更加精确。为了对改进算法进行验证,本课题搭建了具有六个计算节点的完全分布式Hadoop云计算集群。在实验过程中,首先通过大量的实验与分析确定了算法所需的参数,然后将我们的改进算法与Hadoop原有算法及LATE算法进行对比。通过实验结果表明,本算法减少了作业的完成时间,提高了系统的执行效率。
其他文献
近年来随着移动通信技术迅速发展,它已有逐渐取代固定电话网的趋势。但是移动通信仍然存在着信号不稳定,话费较贵的缺点。因此如何融合移动通信和固定电话网成为研究的热点。
随着云存储技术的不断进步,如今已经有越来越多的企业和个人都开始选择将数据存储在云平台上。与此同时,数据的安全问题也受到了越来越多人的关注。尽管我们可以通过加密数据
随着入侵检测技术的深入研究和入侵检测产品的广泛应用,对入侵检测系统进行评估已经成为一个十分重要的研究领域。本文首先对入侵检测系统评估的现状进行了深入地总结研究,在
数字视频和音频压缩技术的进步,以及网络和通信技术的发展,使得在传输介质上传送实时视频和音频信息已经步入了实用化阶段,这就为数字电视的产生提供了条件。针对数字音视频
《中国海洋发展报告2014》围绕党的十八大提出的建设海洋强国战略部署和2013年政府工作报告的要求,结合2013年海洋事业发展和海洋领域发生的重大事件,全面论述了中国海洋事业发
随着数据库技术的飞速发展以及数据库管理系统的广泛应用,人们收集数据的能力有了巨大的提高,积累的数据越来越多。在这浩瀚无边的数据海洋中潜藏着大量重要的、有趣的信息。
随着网络的快速发展,网络学习资源越来越丰富,人们开始通过互联网学习感兴趣的知识,代替传统的学习模式。虽然网络学习资源丰富,但是由于学习网站大量存在,且相互之间对于知识层次
随着移动通信的迅速发展,人们不再满足于仅有的文本、声音、图像,而是希望得到声、文、图及视频流媒体信息。而第三代移动通信网络(3G)不仅继承了时分多址接入(TDMA)技术,还
现在生物信息学已经成为了一门飞速发展的学科,前期研究人员注重对局部数据的处理与分析,随着这种局部数据的增加,人们把注意力移向了更高的层次,希望从系统的角度来研究分析
随着信息技术的迅速发展,特别是Internet与Intranet应用的飞速发展,信息共享、信息交换通过开放式网络形成一个方便快捷的信息传播平台,为计算机的普及提供了有利的条件。同