Hadoop平台下Reduce任务调度策略以及数据倾斜的优化与研究

来源 :武汉理工大学 | 被引量 : 1次 | 上传用户:congsun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,爆炸式增长的数据对现有IT架构的处理和计算能力提出了挑战,MapReduce作为一种新型的计算模型应运而生。Hadoop作为MapReduce模型的一种开源实现,被诸多企业广泛地用于大数据的处理。然而,Hadoop平台也存在着不足,比如Reduce任务调度策略没有考虑数据本地性,以及现有分区策略无法处理数据倾斜等问题,都阻碍了Hadoop平台应用的进一步推广,为此学术界和商业界展开了广泛的研究。本文针对以上两个问题,进行了深入的分析和研究,具体工作如下:(1)针对现有Hadoop平台资源管理模型无法管理节点负载以及Reduce任务调度策略没有考虑数据本地性的问题,基于Hadoop平台的网络拓扑结构提出了Reduce任务的本地性模型,将朴素贝叶斯分类方法用于节点负载分类,同时融入延时调度策略,提出了一种本地性感知的多级均衡延时Reduce调度策略MLBDS(Multi Level Balanced Delay Scheduler),并将该调度策略的实现嵌入容量调度器中。(2)分析了Hadoop平台中数据倾斜的现象以及两种产生数据倾斜的原因,在抽样的基础上提出了一种增量多队列分区策略。通过抽样的方式,获取整体key值的分布,并将key值划分为多个较小的子分区,最后使用多队列将子分区均匀地划分到不同的分区中,来达到解决数据倾斜的目的。(3)搭建Hadoop集群,实现本文提出的MLBDS调度策略以及基于抽样的增量多队列分区策略,将MLBDS调度策略与现有Hadoop平台的容量调度器以及延时调度策略DS(Delay Scheduler)进行对比,基于抽样的增量多队列分区策略与Hash分区策略对比,验证了本文提出的MLBDS调度策略以及基于抽样的增量多队列分区策略的正确性和有效性。
其他文献
两岁的儿子常会提出一些不甚合理的要求,或要求本身合理,但我们限于条件而无法满足。当不能满足他的要求时,小家伙难免委屈哭闹。对此,我们摸索出一些办法,因势利导或转移其
测验法是运用测验对幼儿的发展与教育进行数量化的测定,然后将测定的数据与一定的标准加以比较,从而确定幼儿的发展水平或学习成绩。测验的类型很多,根据测验的性质划分,有人
应用可拓学的理论和方法,对矿产资源的物征及综合利用进行了分析,建立了相应的物元模型,为矿产资源的综合利用提供一种新的科学方法。
<正>2007年8月1日起施行的《中华人民共和国行政复议法实施条例》(以下简称"《行政复议法实施条例》")规定,申请人、被申请人在行政复议过程中可以自愿达成和解,行政复议机关
春天来了。青蛙巴咕从森林里一蹦一跳朝原野走去。巴咕的许多伙伴都住在那里。老兔子正在原野上玩,一看见巴咕就喊起来:“哎呀,巴咕,你怎么一副没睡醒的样子?快,看着蓝天跳一
利用遥感图像处理技术,解译了鲁西地区由近南北向线性体和其它构造信息组成的南北向深层断裂构造带,并从地球物理资料、地球化学资料、微观构造及区域控矿等方面进行验证,为在该
家长送孩子来园,常请老师帮着办一些事,如给孩子服药、增添衣物、寻找丢失的手帕、孩子在(?)话,希望老师批评教育等等。班上几十个孩子,每天有那么多工作要做,为了记住家长所
素描教学是景观建筑设计专业的基础课,随着建筑设计行业以及建筑设计思维的不断发展,景观建筑设计专业的美术基础课也处于一个重要的转型期。本文通过对全因素素描和结构素描
“轰隆隆”,“哗啦啦”,好大的雨,好大的风。小刺精球球家的房顶塌了个大洞。“呜呜——”,小刺猬球球哭得好伤心。雨停了,风住了,布谷鸟催人耕种。球球用小木条钉了间房子,