基于Hama并行计算框架的多层级作业调度算法的研究及实现

来源 :电子科技大学 | 被引量 : 3次 | 上传用户:ccnuzgq1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据技术在业界和学术界的发展,大量的分布式计算平台投入运行,其中以Apache Hadoop平台应用最为广泛。Hadoop屏蔽了分布式系统的底层实现细节,使得应用程序开发人员可以更加专注于算法逻辑的实现。但是,Hadoop也有其局限性,在处理如图计算以及机器学习等问题时,其效率并不高。基于BSP(Bulk Synchronous Parallel)模型的Apache Hama并行计算框架的出现,弥补了Hadoop的这一缺点。但是,由于Hama创建时间不长,发展时间较短,在很多地方仍需继续改进,尤其是其核心模块—作业调度器。Hama目前使用的先来先服务作业调度算法,不仅无法高效的实现多用户共享集群,而且还会对集群的资源利用率造成很大的影响。本文的目的就是实现一种新的基于Hama并行计算框架的作业调度算法,弥补Hama先来先服务作业调度算法的缺点,提高其资源利用水平,并为Hama的作业调度提供更大的灵活性,以满足其未来一段时间内的发展需求。为了达成这一目的,本文的主要工作和贡献包括:首先,通过研读Hama并行计算框架的源代码,剖析了Hama的系统架构,介绍了BSP模型在Hama中的实现,总结了Hama作业的运行流程,研究了Hama的调度框架以及其先来先服务作业调度算法。与此同时,还对Hama中涉及到的HDFS及MapReduce的相关技术进行了总结,并分析总结了MapReduce与Hama在调度模式上的不同之处。随后,以上述研究的成果为基础,再结合BSP模型的自身特点,设计并实现了基于Hama并行计算框架的多层级作业调度算法,并对该算法的设计思想以及实现过程进行了详细的介绍。最后,对多层级作业调度算法进行了实验验证及性能测试。实验结果表明多层级作业调度算法成功的实现了预期的设计目标,解决了Hama先来先服务作业调度算法的不足之处,提高了Hama集群的资源利用能力,并在与Hama先来先服务作业调度器的性能对比测试中表现较为出色。
其他文献
机器学习是人工智能的核心内容之一,机器学习利用训练数据发现隐含模式或者机制,机器学习应用在分类问题上可以利用发现的模式或者机制对未知数据进行分类。随着人工智能领域
推荐系统是大数据时代背景下不可或缺的重要应用之一。在大数据时代,信息过载是一种常态。在此背景下,无论是信息提供者还是信息使用者都面临着诸多难题:作为信息提供者,要将
学位
视频监控系统是如今广泛应用于人们工作和生活中的监控系统,随着现代科学技术的飞速发展和人们生活质量的提高,传统意义上的视频监控系统已经越来越不能满足人们更高的要求。
物联网是新一代信息技术的重要组成部分,其应用范围几乎覆盖了各行各业。物联网获得广泛应用需要解决的一个关键问题是物联网中间件中的信息处理部分,而复杂事件处理是物联网中
云计算是信息时代高速发展的必然产物,作为继个人电脑和互联网之后的第三次IT产业革命,凭借其灵活方便的资源交付模型,改变了公众对计算能力的获取方式,同时其强大的融合和调配能
Android系统作为2008年才发布的开源手机操作系统,因为其免费和开源的特性,迅速流行开来,市场占有率已成为第一,不论是价值千元的低端机还是四五千的高端机,都随处可见。其易用性
近年来,电影产业的发展越来越受到人们关注,每年都有数以百计的电影上映。由于可以选择的影视节目太多,用户很难找到自己感兴趣的节目,如何让用户在短时间内从大量影视剧中找
基于视频的移动目标检测是图像处理的一个重要分支,在许多实际应用中担当核心的任务。理想情况下运动目标检测算法是基于静态背景的,但在实际应用中,运动目标所处的场景往往
随着大数据时代的到来,爆炸式增长的海量数据迫切需要有效的存储和管理。大规模分布式存储技术的飞跃式发展势不可挡。人们对存储系统的要求也更为广泛,譬如存储容量、I/O性能