面向MapReduce数据本地化的调度方法研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:zhuspecial
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代的来临使得云计算成为如今最为炙手可热的IT技术。目前,云计算技术是IT企业的基石,无论是电脑互联网,还是智能手机、GPS等移动终端,其发展趋势都是与云计算相结合。MapReduce的出现将云计算技术的发展带入一个新的阶段,对学术界和产业界都产生了深远的影响。MapReduce是一个用于大规模数据处理的计算框架。数据本地化是MapReduce设计时所遵循的重要原则,也是MapReduce进行任务调度的重要目的。本文主要以数据本地化为目的研究MapReduce的调度策略,以提高系统的性能。针对MapReduce集群存在大量非本地任务的问题,本文对MapReduce的任务调度机制进行研究,介绍了MapReduce中非本地任务选择算法的局限性,并提出了一种基于节点负载的任务调度方法。本文通过对节点的负载情况进行评价,在作业执行的过程中根据节点负载变化情况进行任务调度,使节点间的负载趋于均衡。实验表明,该方法能够显著降低非本地任务的数量,从而降低数据的迁移量,提高系统的性能。针对MapReduce集群中非本地任务执行时间较长的问题,本文对MapReduce的任务执行流程进行研究,分析非本地任务降低系统效率的原因,并提出了一种基于重叠调度机制的数据预取技术。本文通过为非本地任务引入“预调度”状态,使任务执行的数据读取和数据处理两个阶段重叠执行,从而隐藏了数据远程访问开销。实验表明,本方法能够明显缩短非本地任务的执行时间,提高系统的资源利用率。针对在MapReduce无法利用数据副本进行任务调度的问题,本文对MapReduce的容错机制和作业初始化过程进行研究,利用HDFS的副本冗余机制,在作业初始化时为数据副本生成任务副本,并提出一种基于多副本的任务调度机制。本文对每个节点的执行进度进行描述,在进行任务副本调度时保证进度较快的节点能够得到更高的副本使用权,从而利用副本的放置达到较高的数据本地性。实验表明,本方法在降低非本地任务数量,提高任务执行速度等方面有着很好的效果。
其他文献
数据挖掘是一个多学科领域,这些学科包括数据库技术、人工智能、机器学习等。数据挖掘是致力于数据分析和理解、揭示数据内部蕴藏知识的技术。由于数据库中存在着大量数据,因此
随着内置了多种传感器的智能手机的广泛普及和使用,智能手机已经成为一个集通信、计算以及感知于一体的移动计算平台。利用智能手机内置的传感器如加速度传感器和陀螺仪传感
汽车牌照自动识别系统是以汽车牌照为特定目标的专用计算机视觉系统,是计算机视觉和模式识别技术在智能交通领域应用的重要研究课题之一,是实现交通管理智能化的重要环节。
本文首先阐述了Agent技术、XML语言、Web Service技术的内涵和它们在现今的网络环境中的应用现状和发展前景。在理论方法和技术研究的基础上,提出了网络求购Agent系统的分布式
果蔬采收是一项劳动密集型的工作,在很多国家,随着劳动力的高龄化和人力资源的缺乏,人工采收的成本在果蔬的整个生产成本中占了很大的比例。而我国是一个农业大国,果蔬产量多,品种
本文以本体作为P2P系统中共享资源的统一描述形式,设计并实现了一个基于本体的语义P2P资源共享模型。该模型中采用基于Super-Peer的系统模型,创建一个全局本体作为全局视图保存
消费类电子、汽车电子、数控设备等嵌入式产品的需求日益增加,对嵌入式产品在系统的开发周期、软件复杂度管理、开发成本、功耗、性能等方面的要求也在不断的加大。鉴于嵌入式
近年来,高性能计算机技术和应用技术飞速发展,在科学研究与国民经济建设中正发挥着日益重要的作用。以国家超级计算天津中心为例,该中心使用的天河一号超级计算机(TH-1A),应
在瞬息万变的知识经济时代,企业之间的竞争非常激烈,信息流成为了企业的生命线,谁能够更有效的管理企业的财务信息,谁就能在竞争中抢得主动权。这就要求企业注重运用科学的理论和
随着计算机软、硬件技术的发展特别是计算机网络的飞速发展,软件开发规模和复杂度不断增加,软件开发面临巨大挑战。.NET作为一个全新的分布式计算框架,利用现有的网络基础设