Hadoop平台的作业调度算法研究与改进

来源 :北京工业大学 | 被引量 : 4次 | 上传用户:guangmingkoxiuluo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网行业的蓬勃发展,人们对大数据技术的应用更加深入和广泛。作为主流的海量数据并行计算平台,Hadoop在性能方面正面临越发严格的考验。Hadoop平台的调度器控制着作业的调度和资源的分配,其作业调度算法的优劣直接影响集群的性能的好坏。因此,研究并改进Hadoop平台的作业调度算法具有重要意义。本文对Hadoop平台的作业调度算法进行了以下两个方面的研究:1、针对现有的基于截止时间的作业调度算法在YARN集群无法工作的问题,本文提出了一种面向YARN架构的作业调度算法。算法根据作业的截止时间和运行情况推测作业并发任务数量的临界值。利用该临界值将集群资源分为基本资源和额外资源两部分,通过对两部分资源采取不同的调度方式,在最大限度保证作业时间限制的前提下,实现资源使用效率最大化。经实验证明,此算法可以有效地提升在截止时间之前完成的作业数量。2、针对Shuffle阶段产生的网络开销导致集群性能下降的问题,提出了一种Reduce任务调度算法。该算法根据数据本地性和传输数据量对Shuffle阶段网络开销的影响,计算一种用于衡量由Reduce任务产生的网络开销多少的指标。算法根据这个指标选择执行Reduce任务的节点。当首选节点过载时,算法将根据节点的负载情况选择备用节点。实验表明,该算法能够有效地减少作业在Shuffle阶段产生的网络开销。对于Reduce阶段时间比重较大作业,该算法可以有效地缩短响应时间。
其他文献
面部表情在人与人之间的交流上有重要的作用,人脸表情相对文字、语音等媒介在表达人的情感、情绪方面具有更加直观、准确的优势。将自然人这种情感交互模式用于如虚拟远程教
在计算机技术飞速发展的今天,基于网络环境的各种应用系统层出不穷,这些应用系统大多都要针对大量的数据进行处理。在早期的开发过程中,人们对于不同应用系统间共享数据未予关注
基准剂量评估通过把实验获得的剂量——反应数据和数学模型拟合推导健康风险评估的起点,是一种统计学意义上的风险评估方法。首先研究了基准剂量计算的实验设计。目前进行剂
随着网络信息的快速增长,搜索引擎的作用越发的重要。而为了进一步处理和挖掘网络日渐增长的庞大信息,搜索引擎本身也相应地要寻求某些除了简单的网页文本以外的载体。网络表格
聚类技术作为数据分析中的重要手段,在信息爆炸的现代生活中变得越来越重要。为了获得符合常识的信息,人们对数据进行总结和归纳,利用自身的经验将数据聚类为知识。如今,在各
视频监控技术在当今时代得到了长足的发展和广泛的普及。然而当前的视频监控技术相比以往虽然大量节省了人力并提高了效率。但是其通知方式并没有较大的革新,仍然需要专门的监
本文主要研究基于无序图像集的三维场景和相机参数恢复技术。研究的目标是利用结构运动恢复技术从二维图像恢复三维场景的结构信息以及相机的参数。本文工作的主要内容概括如
在机器学习的研究中,人脸识别是一个热门的研究问题。人脸识别系统的一般模型又分为人脸检测,特征定位与提取和识别分类三个步骤,其中特征定位与提取又是整个人脸识别算法的基础
多视点视频作为下一代多媒体应用的发展方向,通过提供多个视点的视频数据来满足用户自由选择观察角度的需求,具有立体感和交互操作的功能。多视点视频的数据量通常随着摄像机数
图像识别是模式识别领域的一个重要分支,鉴于其在医学、航空航天、工业等众多领域的广泛应用和重要作用,图像识别一直作为研究人员的研究热点。而其中的一个重要分支——自然景