面向性能调优的MapReduce集群模拟器的研究与设计

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:meiwanmeiliao2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前各种互联网应用都面临着海量数据的存储和处理问题,飞速增长数据对数据处理系统的可扩展性提出了巨大的挑战。以MapReduce为典型的云技术的兴起,为海量数据的处理提供了一套可行的解决方案。作为MapReduce框架的开源实现,Hadoop也越来越受到各企业的青睐,一方面它提供了HDFS,为海量数据的存储提供可靠、高可扩展的存储平台,另一方面,它实现了MapReduce框架,简化了并行应用程序的设计难度,为大规模并行数据处理提供了简单易用的编程框架。然而,随着Hadoop集群规模的不断扩大,许多基于Hadoop平台的benchmark的测试不能反映生产集群的真实负载特征。同时搭建一个同等规模的测试集群,需要一笔昂贵的开销。同时,作为Hadoop平台性能调优的一个重要方面,调度器性能一直都是人们重点关注的问题。而且随着集群用户和作业的不断增加,用户对作业的响应性能也有不同的要求,共享集群中的作业调度问题日渐突出。许多现存的调度器,如公平调度器,计算能力调度器,HOD等在面对这些问题特别是面对作业类型多样化问题时,都显得有些无能为力。本文在分析Hadoop平台原理和技术的基础上进行以下两个方面的研究工作:(1)提出一种负载生成方法,通过分析真实负载中的作业类型,以及还原真实负载的作业提交模型来模拟集群中的真实负载。同时本文设计了一个MapReduce模拟器,能使用少量节点模拟出大规模集群,并对作业的运行过程进行了精确模拟,从而提供了一个完整的Hadoop集群性能测试平台,帮助解决大规模集群的测试问题。经过实验验证,负载生成方法可以精确生成反映真实负载的模拟负载,模拟器可以通过少量节点模拟出大规模集群,并提供较为精确的作业运行模拟。(2)针对作业多样化问题提出了基于静态优先级的抢占调度算法(SPPSA,Static Priority based Preemptive Scheduling Algorithm),该调度算法将调度问题分解为作业池调度,作业优先级调度,任务调度等三个问题,从而提供了作业池级别的公平性和资源控制、作业响应性保证,以及数据本地性保证等功能,经过实验验证,SPPSA可以解决大规模共享集群下用户对作业的不同响应性要求,同时抢占所带来的影响也在可接受范围之内。
其他文献
近年来,基因调控网络一直是一个生物信息学中的热点问题。基因调控网络描述的是基因之间的相互调控关系,通过分析该网络,可以从中发现基因之间相互作用和协同工作的原理,并且
所谓共指消解就是将对应同一实体的多个表述划分到一个等价类的过程。共指消解是信息抽取中的一个重要子任务,在自然语言处理和信息检索的各个领域有着重要的应用。传统方法将
心脏的收缩和舒张为人体的血液循环提供动力,是人体的动力之源,然而心血管疾病一直威胁着人类的健康。由于临床医学对人体心脏的研究成本高、效率低,虚拟心脏的研究得以迅速发展
无线传感器网络(WSNs)由大量传感器节点组成,这些节点分布在一定的区域内,并且通过无线节点间的相互通信来组成自组织的网络。无线传感器网络的主要功能是环境监测和信息采集,并
现在人们已经进入了信息化时代,并且随着科技的发展,信息在人们平时的生产和生活中变得越来越重要。这些信息以不同的方式出现在我们的生活中,如何将这些信息加以良好的有效的利
实验教学评价的研究是提高实验教学质量,进行科学实验教学管理的重要保证。针对当前实验教学评价系统存在的问题,设计开发了高校实验教学评价系统。本文主要工作内容如下: 
随着网络和数字媒体的快速发展,存在于网络上的视频数据呈现爆炸式增长,如何进行有效的管理和版权保护已引起了人们的广泛关注。基于内容的视频拷贝检测(Content-Based Copy De
语音作为一种方便、快捷、有效的交流方式,在人们的日常生活中扮演着非常重要的角色。随着社会科技的不断进步及其人工智能的迅猛发展,语音信号也逐渐成为人-机交互的一种重
随着无线网络和先进移动设备的迅速发展,移动环境下的个性化推荐服务已经引起了人们的广泛关注,在移动环境下要求实时性以及上下文感知的特性应用推荐场景已经有了很多广泛的研
移动Ad Hoc网络,是一类由若干移动通信设备构成的自组织系统。由于Ad Hoc网络中节点移动的随机性,使其拓扑变化频繁,造成网络性能下降,加之伴随各种应用的迅猛发展,人们对Ad Hoc网