基于Hadoop的作业调度策略研究

来源 :电子科技大学 | 被引量 : 3次 | 上传用户:jfguo2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网规模的日益增大,需要处理与存储的数据量也越来越多,云计算已经成为一种典型的解决方案。目前,云计算已经受到学术界与工业界的广泛关注,许多公司都拥有自己的云计算平台。其中,许多云平台是基于Hadoop开发的。Hadoop是一个运行于大型集群上,用于大数据存储与并行计算的开源分布式框架,应用程序开发者只需要根据相关的接口需求就可以实现分布式处理而不必关注底层细节。Hadoop平台的性能与其作业调度算法密切相关,合适的调度算法能够极大地提高对Hadoop平台的资源利用率和系统吞吐量。但是,现有的Hadoop作业调度算法存在一些不足之处,因此,对Hadoop平台的作业调度算法进行优化和改进具有十分重要的意义。本文对Hadoop平台的作业调度算法展开研究,主要工作如下:1、从分布式文件系统HDFS和并行编程框架MapReduce两个方面对Hadoop的整体架构进行了介绍。2、深入分析了Hadoop平台下的作业调度流程,重点介绍了现有的几种作业调度算法:FIFO调度算法、计算能力调度算法、公平份额调度算法,对它们的算法思想与主要优缺点进行了分析比较。3、针对Hadoop现有调度算法对本地性问题考虑不足的情况,通过引入数据预取技术,提出了一种改进的调度算法,该算法会在作业执行中为需要分配任务的节点预先读取任务,改善了节点任务执行的效率,从整体上提高了系统性能。4、针对Hadoop现有调度算法对慢任务识别不当的问题,通过引入K-means算法,提出了一种改进的调度算法,该算法吸取SAMR调度算法的优点,通过记录各个节点的历史阶段权重,以K-means为工具,划分历史数据为不同聚类,从而能够让节点有效地预测任务剩余执行时间,提高慢任务的识别率。5、为了验证算法的有效性,搭建了小型Hadoop实验集群,通过分析日志和记录任务执行的阶段权重等方面对两种改进的算法进行了分析比较,实验结果验证了改进算法的可行性和有效性。
其他文献
当今社会,IT和互联网技术的蓬勃发展给人们带来了无限机遇和财富,但与此同时,其每时每刻也都在产生着数以亿万计的数据量。如果没有一个好的办法发掘出其中潜在的信息,就无法
基于计算机视觉的视频监控技术利用图象处理技术分析视频序列中的目标及其相互关系,在场景中检测目标、跟踪目标并对目标的行为进行分析与描述。视频监控技术在近十年取得了
近年来纹理合成技术广泛地应用于真实感和非真实感绘制、数据压缩、计算机动画、图像修复和编辑等领域,已经成为计算机图形学、机器视觉和数字图像处理领域的一个重要的研究
随着计算机硬件技术与网络通信技术的快速发展,以并发性为特征的并发系统越来越显示其重要性,并已成为当前计算机软件开发的主流方向。然而由于并发系统本身所具有的复杂性,
多媒体课件应用于教学中,能够提高教学效果和效率。但传统的课件固化了教学内容和策略,固化了知识的表达方式和呈现顺序,不能充分发挥教师在授课过程中的主观能动性和创造性,
学位
随着社会经济的发展,机动车辆与日俱增,随之而来的人身安全越来越受到世人的关注。驾驶员疲劳已经成为引发交通事故的主要因素之一。因此,许多国家都积极开展有关驾驶疲劳的
随着Skyline查询在多标准决策、数据挖掘、用户偏好查询、数据库可视化等领域的广泛应用,国内外学者已经提出了多种Skyline算法,但由于Skyline查询方面的研究发展时间尚短,目前
在人类社会进化中,为了求解问题,人们提出了各种处理精确信息、随机信息的方法,并且解决了不少问题。但是,精确信息和随机信息只是人类所涉及的各种信息中的两类信息,在处理很多问