【摘 要】
:
当前的数据密集型计算需要处理PB级数据集和GB级数据流,面临着大规模数据管理、复杂计算环境管理、可扩展计算平台等方面的难题。Hadoop是一种易扩展的分布式计算架构,能将廉
论文部分内容阅读
当前的数据密集型计算需要处理PB级数据集和GB级数据流,面临着大规模数据管理、复杂计算环境管理、可扩展计算平台等方面的难题。Hadoop是一种易扩展的分布式计算架构,能将廉价PC节点联合起来提供计算服务,其MapReduce框架为用户提供了容易使用的并行处理大规模数据的编程模式。本文在分析了现有的Hadoop集群作业调度方法的基础上,对现有的MapReduce集群的多用户作业调度方法的数据本地性较差的问题进行了深入研究。并针对Hadoop现有调度算法不能很好的保障任务的数据本地性问题,提出了一种基于时间的等待调度方法,该方法优先将任务调度到其所需的数据所在的节点上执行,从而实现了更好的数据本地性,有效减少计算过程中的IO开销,实现提高系统吞吐率和减少单个作业平均响应时间的目的。为验证方法的有效性,我们对提出的作业调度方法给出了设计与实现,并进行了实验验证。结果表明,基于时间的等待调度方法在保证多用户公平共享集群的基础上,节点的数据本地性得到很大的提高,有效增加了集群系统的吞吐量,有效减少了单个作业的平均响应时间。
其他文献
产业集聚是产业发展的内在规律,是市场经济条件下工业化发展到一定阶段的必然产物。从实践上看,目前产业在空间上的规模集聚已经成为经济发展的一个基本趋势。但随着工业的不
作为电动汽车主要部件的电机和控制器,在电动汽车及混合动力汽车中有重要的作用,研究它们具有重要的理论和现实意义。开关磁通永磁同步电机是一种高性能宽调速电机,由于其结
深圳市于1998年颁布实施《深圳市城市规划条例》,由此确立了深圳以法定图则为核心的城市规划体系。法定图则在深圳推行10余年来取得了显著的成效,一方面,深圳法定图则作为规
近年来,随着计算机技术的发展,电子器件密集度越来越高、结构越来越复杂。由于自然对流具有低能耗、低噪音、高稳定性等特点在电子器件冷却中占据显著优势。因此,研究复杂电
<正> 近几年来,祖国医学在辨证施治和运用专方治疗先兆流产及习惯性流产方面,积累了不少资料.现将1987年以来的有关文献综述如下。一、辨证治疗辨证施治是祖国医学传统的治疗
在石油化工行业中,设备维修管理至关重要,设备状态的好坏直接关系到生产的安全正常运行,设备维修管理和人力资源管理、资材管理同等重要,也是生产要素之一,通过对设备有效的
我国住房保障制度伴随着住房制度改革的不断深入而逐步建立,经过三十年的发展,在制度上已经初步形成了以经济适用住房和廉租房为主,危旧房和棚户区改造安置房、城中村改造安
随着计算机技术和网络技术的迅猛发展和普及,人们的生活和学习方式发生了翻天覆地的变化,这些技术已经影响到社会的各个领域,有着传统教育无法比拟优势的远程教育就是其技术
通常将病程介于3~8周,以咳嗽为唯一或主要症状者定义为亚急性咳嗽。国内外指南均认为亚急性咳嗽的主要病因为感染后咳嗽(cough post infection,CPI,又称感冒后咳嗽),但可供参
本文基于系统科学理论,综合运用区域经济学、产业经济学、计量经济学等理论与方法,对高技术产业与区域经济协调发展问题进行了全面系统地研究,主要内容包括:运用区域经济学、产业