HADOOP调度算法及其改进策略研究

被引量 : 18次 | 上传用户:hai198351
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
我们身处在一个网络的时代,人们生活的方方面面已经与互联网密不可分,人们在网上交友、购物,在网上搜索一切自己想要的信息。大量的网络生活往往意味着越来越多的网络数据:Facebook在其服务器上存储着多达百亿的用户照片;Google和百度的爬虫每天收集着T级别的网页信息。在这海量信息面前,传统的技术难以满足需求,在此背景下,“云计算”的概念悄然而生。Hadoop是在云计算与大数据的背景下诞生的开源分布式计算平台,它借鉴了Google的GFS和MapReduce技术,使开发者可以轻松开发和运行处理海量数据的应用程序。由于Hadoop是开源的,而且有很强的易用性和高效的分布式处理能力,在短短几年里它就成为主流的分布式数据处理平台。本文针对Hadoop这一年轻的开源分布式计算平台进行了研究。首先通过海量数据的背景引出“云计算”技术,研究了其概念及技术架构;然后,讨论了当前应用最为广泛的Hadoop分布式计算平台,重点针对其HDFS(Hadoop Distributed File System)和MapReduce关键技术展开研究,分析了其架构模型、工作机制和可靠性;最后,本文研究了Hadoop的作业调度机制,分析了系统自有的作业调度算法即FIFO算法、计算能力调度算法和公平份额调度算法的调度原理,针对以上算法中存在的不足之处提出了基于匹配原则的、基于作业组合的和基于优先级策略的改进思路,并根据以上改进思路提出了改进的作业调度算法,即基于动态优先级的组合调度(Dynamic Priority Based Compose Scheduler, DPBCScheduler)算法。新的算法通过采用作业匹配的原则实现调度性能的提升,在进行作业匹配度分析时,利用动态优先级的策略实现匹配程度的的实时更新,同时,加入了作业组合的策略,使得优先级应用在局部而不是整个作业队列,降低调度的负担。经过最终编码实现和测试,改进的算法成功地达到了预期的目标,提高了系统的性能。
其他文献
一、教学的设计思路根据新课程理念,树立“健康第一”的指导思想,贯彻“以学生发展为本”的教学理念,充分发挥教师为主导,学生为主体的地位,激发学生的运动兴趣,关注每一个学生的发
近年来,随着科技的发展,在与科学结合十分紧密的美国环境外交政策领域,认知共同体发挥着越来越大的影响力。认知共同体所代表的专业知识和网络,可以被视为对美国外交政策发挥
欲望是西方经济学的一个重要概念,整个新古典经济理论分析都是建立在人的无限欲望与资源稀缺性这对矛盾基础上的。作者认为,现代西方经济学只是把欲望当作一个理所当然的前提来
高职教育是我国教育事业的重要组成部分。高职英语作为一门公共课,在高职教育中的重要性毋庸置疑。但是,高等职业学校英语教学中仍然存在一些问题,其中特别值得关注的是学生的主
白家海凸起位于准噶尔盆地腹部,为一SW向倾伏的鼻状凸起,是新疆石油分公司彩南油田作业区重要的勘探开发区块。该凸起构造高部位(彩9—彩10井区)西山窑组一段发育大型构造岩性油
通过搭建术中快速冰冻标本信息管理系统,进行相关数据分析,合理控制标本送检流程,建立质量环节追溯,减少了冰冻标本结果等待时间。术中快速冰冻标本信息管理系统实现了冰冻快
在国家绿色城市发展政策导向,区域发展格局要求环首都地区快速发展的大发展背景下。按照河北省环首都绿色经济圈对保北新区的发展要求,高碑店具有推动保北区域崛起“发动机”的
互联网在过去的十年中得到迅速的发展和普及,已经成为人们日常生活和工作中不可或缺的信息承载工具。P2P技术具有去中心化、可扩展性强、健壮性、负载均衡等优势,极大地促进
我国区域经济发展的冲突主要表现为区域间的发展差距过大,重复建设严重.缓和及至消除冲突必须在以下方面做出努力:加快产业区际转移,积极发展地区产业集群,选准主导产业并进
当前,随着科学技术的快速发展,互联网已经深入到人们生活与工作的每一个层面,影响着人们的方方面面。在这种背景下,"云会计"应运而生,将"云会计"引入到企业中,能够推动企业会