异构环境下MapReduce的算法重建与性能优化

被引量 : 2次 | 上传用户:mikecxybb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着个人计算机和互联网革命,云计算被看做第三次IT浪潮,这将改变互联网的技术基础,甚至会颠覆整个行业格局。它会在人们的生活,生产方式和商业模式上带来根本性的变化。作为开放的云计算平台Hadoop的重要组件,MapReduce是用于处理和生成大量数据集的一种分布式和并行计算模型。MapReduce从实现细节中抽象出业务逻辑,并提供功能强大的接口供程序员使用。它可以屏蔽底层的具体实现过程,有效地降低了分布式和并行计算难度,且具备高可靠性,高扩展性,高效率,高容错性的特点。然而,由于MapReduce机制本身的不完美和不成熟,其有必要进一步提高效率。根据对MapReduce的原理和性能指标进行分析,在异构环境中,资源调度存在不合理的问题,数据传输机制有待改进,系统参数可以进一步优化。为了提高异构环境下MapReduce处理大数据集的效率,本文提出了三方面的优化策略:自适应的可移动窗口调度算法,变更数据传输协议(从HTTP到UDT)和优化系统配置参数。其中,自适应的可移动窗口调度算法具备以下优点:(1)基于优先级的任务调度,根据优先级分配执行时间和系统资源;(2)考虑到集群的异构性,基于不同节点的性能分配不同的任务;(3)根据每个节点的负载水平,自动调整负载平衡,动态调整在TaskTracker上运行的任务数目;(4)改进了数据本地化调度算法,提出了基于节点等待时间的数据本地化策略;(5)改进了推测执行策略和识别掉队者(straggler),特别是对于慢节点可以区分是Map慢节点还是Reduce慢节点;(6)控制后备队列中的任务数,以防止任务抖动。对于数据传输协议变更,UDT减少了数据传输过程中建立连接的次数,解决了HTTP拥塞控制机制在高带宽长距离环境下的低效率问题。对于系统配置参数的优化,通过对Map任务输出的数据压缩,减少文件传输的数量和降低带宽成本;减少Reduce任务对内存需求,并设置更多的内存空间,可用于存储更多的Map任务的输出;调整的Map/Reduce任务数量比例,使任务分配更加合理和高效;在Shuffle阶段增加copier线程的数目,提高在shuffle阶段传输大数据的速度。最后,本文根据实际数据通过不同角度的实验方案进行了大量实验测试,对比了优化前与优化后MapReduce的性能差异。算法经过实验的验证,证明了在重建和优化之后,MapReduce的性能得到了很大地提高。
其他文献
电力网络拓扑分析为潮流计算、状态估计、安全分析等方面提供网络结构数据,是诸多电力系统分析软件的基础,其作用即把电力系统的物理模型转化为网络分析需要的数学模型。因此
目的:探讨搜剔祛风、化瘀通络论治中风后遗症对神经功能恢复的疗效及对血液流变性的影响。方法:86例缺血性中风后遗症患者随机按入院前后分为对照组和观察组各43例。两组均按
20世纪50到60年代,一群美国的年轻设计家开始运用摄影和插图混合的手法进行平面设计,注重个人观念的形象表达,注重把设计与艺术形式结合起来,注重平面设计的感性效果。其中最有影
我国金融行业近年来规模发展迅速,在税收方面也做出了巨大的贡献。本文在阐述了当前我国金融行业的业务发展以及税收现状后,结合最优税收理论,通过对金融行业税收以及经济增
目的:研究赶黄草抗非酒精性脂肪肝的作用及可能的治疗机制。方法:将大鼠分为6个组,即正常对照组、模型组、非诺贝特组(33 mg·kg-1)和赶黄草高、中、低(16.7,8.4,4.2 g·kg-1
19世纪末20世纪初社会主义思想的传播在古老的中国揭开了序幕,它作为世界近现代史上影响深远的一种政治思想,与中国近现代社会的急剧变迁紧密相随,它也是中国近代思想史上的重要
背景和目的神经原性膀胱功能障碍(neuropathic bladder dysfunction,NBD)是指任何中枢、周围神经病变及损害导致膀胱或者尿道括约肌功能的障碍。神经原性大小便失禁是其主要临
中学党组织肩负着全面贯彻党的教育方针的重要职责。当前,在坚持和完善校长负责制的同时,中学党组织要充分发挥政治核心和战斗堡垒作用,开创新的工作局面。本研究围绕“党建
有限元法是60年代初期随着电子计算机的发展而发展起来的一种新的计算方法.有限元法在真空与低温工程中的应用之广、解决问题之快、精度之高与蒙特卡罗方法有过之而无不及.首
摘要:随着我国市场经济的不断发展,越来越多的企业参与并购,并购俨然已成为企业发展壮大的一种重要方式。但是,在现实中,一些企业并购异象也随之出现,很多企业并购活动不仅没