MapReduce作业调度算法分析与优化研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:taiguomin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的迅猛发展,每天由网络产生的数据量越来越庞大。互联网企业面对这些浩繁的数据,常常陷入数据丰富而信息贫乏的尴尬境地。MapReduce是Google提出的一种用于大规模数据并行运算的模型。由于简单、易于实现、可扩展性强以及良好的容错性等优点,MapReduce被广泛应用于日志分析和海量数据排序等大规模数据分析领域。然而,通过对MapReduce的深入分析以及与并行数据库管理系统进行比较后,发现MapReduce在性能方面不及传统的并行数据库管理系统。因此如何提高MapReduce的性能已经成为大规模数据并行运算领域中的一个研究热点和难点问题。本文对通过优化作业调度算法的途径来提高MapReduce性能的技术展开了研究。首先,介绍了MapReduce计算模型及其工作机制,重点分析了MapReduce作业执行流程和特点。其次,分析了MapReduce作业执行时间的影响因素。着重分析了MapReduce配置参数及其存储结构对作业执行时间的影响程度,并设计了一种评估存储结构对性能影响的方法。实验结果表明了该评估方法的有效性。然后,提出了一种基于神经网络的作业执行时间预测方法。该方法利用MapReduce已完成作业的相关数据信息,通过神经网络建立MapReduce参数和作业执行时间之间的关系模型,进而达到利用模型预测作业执行时间的目的。实验结果验证了该方法在预测作业执行时间的有效性和准确性。最后,提出了一种基于高响应比优先的MapReduce作业调度算法。针对MapReduce基本调度算法存在不足之处,结合本文提出的MapReduce作业执行时间预测方法,提出了一种基于高响应比优先的作业调度算法。该算法综合考虑了作业的要求服务时间和等待时间,既考虑了短作业,又兼顾了作业到达的先后次序,不会使长作业长期得不到执行。实验验证了该调度算法对MapReduce作业调度的有效性。综上所述,本文分析了MapReduce计算模型、工作机制及作业执行时间的影响因素,提出了一种预测MapReduce作业执行时间的方法,并提出了一种适用于MapReduce计算模型的基于高响应比优先的作业调度算法。
其他文献
心电信号的检测是心脏疾病临床诊断中的重要环节,如何增加心电信号采集的精度、降低噪声干扰、提高心电信号检测的效率一直是心电信号检测研究的核心问题。本文主要从三个方
作为新一代的软件架构,面向服务的体系架构SOA (Service-Oriented Ar-chitecture)具有松耦合、开放和平台及实现语言独立的特性,为服务的重用和跨平台的业务整合与交互提供了
近年来互联网的飞速发展,相关技术的日益成熟,同时各种网络应用给我们的日常生活带来了极大的方便,因此带动了互联网用户爆炸式的增长。互联网已成为我们生活,工作和学习等方
防火墙是最广泛部署的安全机制之一,其有效性取决于网络过滤策略的配置。如今,防火墙策略异常检测与处理技术已经普遍应用于现实场景中。在防火墙中存在异常策略时,系统会对
随着信息技术的快速发展,信息管理系统逐渐开始普及。大部分企业及高校开始构建自己的信息管理系统,用来规范管理日常办公流程,提高工作效率。在传统软件应用模式下,对于每个
相关向量机是一种基于稀疏概率模型的机器学习方法,与机器学习中分类回归领域得到了广泛应用的支持向量机在体系结构和功能运作上十分接近,从而较好地吸收了支持向量机泛化能
在实现嵌入式系统的过程中,软硬件协同设计技术通常需要考虑在缩短上市时间的基础上满足各种设计约束。协同设计的一个关键要求是对系统模块进行一个有效的软硬件划分,在满足功
近年来,基于云计算的互联网服务不断涌现,其中MapReduce计算范式和HDFS分布式文件系统已逐渐成为开发大型数据密集型应用的首选模型。从硬件供应商的角度,这类应用部署的规模如
多频生物电阻抗成像技术(MFBEIT)依据各组织对激励信号频率敏感性不同的原理,在多个频率激励下测量生物体内的组织阻抗信息,通过分析组织阻抗分布图像区分不同的组织或同一组织
近年来,部队车辆的数目不断增多,管理的难度愈加增大。传统的管理方式实时性差、安全性低,不能满足管理人员对访客记录的实时查询需求,此外,由于所有的记录采用的都是纸质媒