MapReduce故障容错研究与作业调度器优化

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:c1093682
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据爆炸性地增长,如何高效的分析和存储海量数据引起了人们的广泛关注,传统的网格计算、并行计算和分布式计算已经不能满足现在海量数据处理的要求,MapReduce编程模型应运而生。MapReduce的出现让海量数据的处理变得轻松和简单。MapReduce被广泛的应用于用户行为分析,广告效果分析、网络爬虫等海量数据处理。随着MapReduce集群不断扩大和MapReduce应用的增多,MapReduce一些不完善的地方也逐渐显现。由于MapReduce采用master/slave架构,主节点JobTracker就会存在单点故障问题。当前绝大多数MapReduce作业调度器是按照CPU进行调度的,作业调度的时候没有考虑到作业和机器的内存使用情况,因此,会造成大内存作业运行时占用较多的内存资源而导致TaskTracker的内存溢出甚至宕机。本文在分析MapReduce相关技术的基础上进行以下两个方面的研究工作:1)本文针对JobTracker的单点故障问题,提出了双节点热备份的解决方案,设计并实现一个双机热备系统。在该系统中,通过双机热备来提高JobTracker的故障容错能力,即引入了一个备份JobTracker去对主JobTracker进行热备份。备份JobTracker通过实时收集、解析主JobTracker的作业状态更新日志来恢复作业运行状态,从而到达主备状态同步。当主JobTracker失效或者Hadoop集群需要重启时,备份JobTracker将会迅速恢复所有的作业状态,并接管原来主JobTracker的所有服务而成为新的主JobTracker,从而保证了所有服务不间断的运行。实验表明该方案能够有效的解决JobTracker的单点故障问题,提高MapReduce的故障容错能力。备份JobTracker同步主JobTracker状态带来的额外代价较小,几乎可以忽略;故障切换和恢复时间不到2s,有着良好的用户体验。2)本文针对传统作业调度器中没有考虑到作业和TaskTracker内存使用情况,而导致TaskTracker内存溢出的问题,提出了基于内存控制的调度算法。该算法以公平调度器为基础,根据Hadoop中与作业内存相关的配置信息,估算每个作业运行时所需的内存大小,对公平调度器的调度算法进行了优化。此算法在作业调度的时候考虑了作业所需内存和集群中机器内存使用情况,该算法保留了公平调度器公平高效的优点,同时使集群内存使用达到均衡,避免TaskTracker内存溢出甚至宕机情况。实验表明该调度算法能够有效的避免TaskTracker内存溢出和宕机的情况,同时,在集群中有较多的大内存作业运行的时候能够提高集群的效率。本文的两个方案均已应用于国内最大电子商务公司的生产集群上,该生产集群的节点数超过3000台。
其他文献
全局优化问题广泛应用于工程设计、生产制造、交通运输和信息处理等领域。因其具有存在多个局部最优解或者一、二阶信息不易获得等性质,一般传统的优化方法并不适合求解该类问
互联网的快速发展使得无线网络的应用越来越广泛,出现了许多新的基于无线网络的增值服务,其中无线定位服务就是一项比较有前景的新业务,基于信号强度的无线局域网定位系统以其不
随着人们生活水平的提高,舒适、优雅、绚丽的针织服饰越来越被大众所青睐,而电脑横机正是针织服饰时尚的缔造者。近年来,国内电脑横机行业虽然出现了“百花齐放,百家争鸣”的局面
在数字电视领域针对多代机顶盒共存问题,节目需要同时以MPEG-2标清、H.264/AVC高清和H.265/HEVC超高清播出,造成了传输带宽紧张问题,限制了高清和超高清的普及。利用不同分辨
由于无线传感器网络一般部署在条件恶劣、无人看护的环境下,通常不具备自我保护的设备,因此,攻击者可以俘获部分传感器节点,通过对俘获节点进行分析破解一些机密信息,从而克
舆情分析作为自然语言处理研究的重要分支,近年来越来越受关注。随着藏文信息技术的发展,藏语也迈入了自然语言处理时代,而针对藏文文本的情感分析研究也越来越受到重视,但由
随着计算机硬件的发展,计算机视觉领域有了更加强大的后台支撑,二维图像已经满足不了研究的需求,对场景进行三维重建应运而生。目前常用的三维重建算法有体征提取算法,块匹配
面向服务架构(Service-oriented Architecture, SOA)作为一种新的软件架构方法,可有效解决业务需求复杂多变、信息系统间难以交互和沟通等问题。SOA参考模型是面向服务架构的重
人脸表情识别是机器视觉和模式识别等领域的一大富有挑战性的研究课题。人脸表情识别一直作为领域内热门的研究方向,具有广泛的应用场景,例如人机交互、安全监控,谎言检测等
随着计算机技术的不断发展,以数据仓库为基础,基于数据挖掘的决策支持系统在电信、金融、营销、质量分析、生物基因工程等领域的应用已经有了深入的研究。但是在高校教学管理方