基于Hadoop调度算法的研究及改进

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:bestopx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代,关系型数据库不再适合存储海量的大数据,如何存储和处理海量数据已成为一个难题。Hadoop的出现使问题出现了转机,它是一个对大量数据进行分布式处理的软件框架,其核心包括 HDFS(分布式文件系统)和 MapReduce编程模型。HDFS用于存储数据,解决了大数据存储的难题。用户通过编写Map Red uce程序,并在集群中运行MapReduce程序进行数据处理,解决了大数据分析处理的难题。  Hadoop所采用的调度算法对 MapReduce的性能具有很大影响。本文首先分析了Hadoop自带的三种调度器:FIFO调度器,计算能力调度器和公平调度器,然后通过分析LATE调度算法的不足,提出了改进LATE调度算法三种不足的LATE-BLC调度算法。本文的主要工作如下:  (1)考虑节点性能均衡的问题,根据节点任务执行的历史记录评估节点的性能,不再采用固定任务槽的设定,提出了根据节点的性能动态调整任务槽数量的方法。  (2)考虑数据本地性的问题,提出了优先考虑任务数据本地性的方法。当有空闲节点请求JobTra cker分配任务时,首先优先找出需要空闲节点数据的慢任务,并且为该任务执行备份任务,从而提高了任务本地性,减少了数据的跨机架传输,减轻了带宽压力。  (3)在确定任务的剩余时间方面,抛弃了固定划分时间比例的方法,采用动态调整时间比例的方法。在本地节点记录下完成任务的历史信息,对任务各子阶段所占的时间比例进行动态调整,提高了计算任务进度值的精确度和任务剩余时间的准确度,更加精确地找到需要备份执行的慢任务。  (4)提出LATE-BLC调度算法,在LATE调度算法的基础之上,提出了LATE-BLC调度算法,LATE-BLC调度算法综合考虑了节点性能均衡问题、数据本地性问题和任务的剩余时间问题。  最后搭建 Hadoop集群环境,通过配置不同的调度器运行作业,并记录作业的响应时间。实验结果表明,LATE-BLC调度算法缩短了作业的平均执行时间,提高了系统资源的利用率。
其他文献
该文尝试将GIS应用在农业环境信息管理中,同时力图解决部分 关键技术问题.以将GIS应用融合于农业环境信息管理的业务流程为出发点,该文就基于GIS的农业环境管理支持系统(AESS
Sun公司提出的Jini技术为构造面向服务的分布式系统提供了一个很好的框架.建立在Jini技术上的服务可以适应高速动态网络环境,并且可以自动管理.然而,对于这些分布式服务,我们
信息检索是电脑中最基础最重要的应用之一。但以往的信息检索基本都是基于关键词匹配的,只要发现某个文档(网页)中含有这个 关键词,就将该文档(网页)作为查询结果返回给用户。因
聚类是将数据分组成为簇或类,使得处于同一个簇中的数据之间相似度较高,而处于不同簇的数据之间差别较大。人们对于聚类问题已经进行了深入的研究,提出了很多的算法来解决各种各
"可变IP地址用户间通信支持系统"主要用于解析接入内部网的用户信息,实现对用户的可变IP地址的动态管理,为内部网中的用户提供信息服务,以达到支持可变IP地址用户之间进行通
该文提出了一种基于TCP/IP协议的IPSec,称为DL-IPSec.DL-IPSec分别对TCP数据报头和IP数据包载荷采用两种不同的加解密方式,其中一种方式由网络中可信任的中间路由器掌握以便
伴随着Internet商务应用和企业间电子交互需求的出现,业界诞生了"数据库/Web服务器/浏览器"的计算模型,该模型为企业提供了新的发展机遇,但是在这个模型中也存在许多如:安全
通过对VOD技术、服务器负载均衡理论和服务器集群理论的研究与分析,该文提出了媒体服务器集群的设计方案,详细阐述了OpenVideo系统的媒体服务器集群和负载均衡的设计与实现,
论文主要研究内容包括:1.研究了主分量分析方法,结合面瘫判定的应用特点,对于单帧静态表情图像,用主分量分析的方法判别表情模式.提出沿对称轴相减的预处理方法,判定模式时引
该文简要介绍了访问控制技术的研究状况,详细描述基于角色的访问控制技术的相关内容;分析了时间特性在访问控制技术中的重要意义;提出一个基于个体的时间访问控制模型(TIBAC)