MapReduce框架下的任务调度算法研究

被引量 : 0次 | 上传用户:china_jjf_wolf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来大数据计算已成为研究热点,Hadoop和Spark都是基于MapReduce框架的广泛应用的大数据计算平台,其性能主要取决于任务调度的优劣。因此,基于MapReduce框架的Hadoop和Spark环境下任务调度算法的研究具有一定的理论价值和实际意义。本文重点研究:Hadoop环境下批处理作业调度算法和Spark环境下Web服务的资源分配方法。针对Hadoop环境下优化最大完工时间的批处理作业调度问题,本文将该问题模型化为具有准备时间的两阶段混合流水作业调度问题,并基于DAG(Directed Acyclic Graph)模型提出启发式算法 DAGEA(Directed Acyclic Graph Earliest Available)和DAGEF(Directed Acyclic Graph Earliest Finish)。现有求解具有准备时间的两阶段混合流水作业调度的算法往往基于甘特图构造,此方法无法有效考虑各作业的可调度范围。不同于此,DAGEA、DAGEF基于DAG构造,通过DAG计算各作业的可调度范围并合理调整作业的开始时间,从而有效提高算法的性能和效率。模拟实验验证了该结论。Spark计算基于内存,而Hadoop计算基于磁盘。Spark目前资源分配考虑空余核数和内存等大粒度资源,本文在Spark环境下Web服务资源调度增加考虑集群节点CPU利用率和处理能力等资源使用情况,重新评估每个节点资源利用率,再分配资源给任务。新的资源调度方法MEAN缩小资源粒度,从而提高集群资源利用率,增加Web请求处理数,提高并发性。任务调度和资源分配是分布式大数据计算平台的核心,其质量直接决定平台的性能。本文研究基于MapReduce框架的任务调度算法,重点研究Hadoop环境下批处理调度算法和Spark环境下Web服务的资源分配方法,分别提出DAGEA、DAGEF和MEAN算法,实验表明所提算法的有效性。
其他文献
针对当前一些地方的少数党员干部在做群众工作中存在的主要问题,提出了要在增强宗旨意识、增进与群众朴素感情、善于运用政策引导、为民办实事解难题等方面上下功夫的基本对
指出了PM2.5对人体健康具有显著危害,当前我国多个城市PM2.5严重超标,已成为需重点控制的大气污染物。综述了PM2.5对健康影响的研究方法及毒性机理研究现状,以期为PM2.5的健
首先对全国各个监测点进行PM2.5浓度值的相关性分析,确定相关性较强的区域,然后根据全国各地的PM2.5实时监测数据描绘出各地PM2.5浓度等高线图,发现其扩散的4条特征,再结合我
虚拟现实技术的快速崛起,展现出其应用在各个领域中的巨大可能性。本文简述了虚拟现实技术的定义和特点,并探讨其在院前急救工作中的应用潜力,同时对虚拟现实技术存在的问题
在现场考察和工程地质勘察的基础上,详细分析了贵匀高速公路百鸟坡隧道左线进口边坡的工程地质条件及其变形特征,认为在暴雨条件下,坡体的覆盖土层与部分强风化层沿强弱风化
以辽宁某小区人工开挖岩质边坡为工程研究背景,结合现场地质环境调查、地质勘查及与岩体相关的室内试验,得到该岩质边坡的工程地质条件和岩体的物理力学参数,进而分析人工岩
针对我国深部煤层气资源丰富,但因经济和技术条件有限,很难对其进行常规开采的问题,提出了CO2捕获、利用与封存(CCUS)技术,采用该技术不但可提高深部不可采煤层中CH4的采收率
<正>我是一个用汉语写作的藏族人。我出生于四川省西北部的阿坝藏族羌族自治州。从富饶的成都平原,向西向北,到青藏高原,其间是一个渐