Hadoop平台的MapReduce模型性能优化研究

被引量 : 9次 | 上传用户:zoey12
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代不但带来了数据量的迅猛增长、数据访问的并发压力,也对数据计算提出了更高的性能要求。云计算作为一种解决方案,被提出之后就得到了迅速发展。它近乎无限的存储能力和计算能力为互联网的发展指明了一个新的方向。Hadoop作为目前主流的云计算平台,也得到了广泛的认可和应用。Hadoop是一种高可用性、高伸缩性、高扩展性的高性能大数据处理平台。同时它又兼具低成本和开源优势。它的实现有两个核心:HDFS(Hadoop Distributed File System)和MapReduce。HDFS是一个支持超大文件、流式访问,并具有高吞吐量的分布式文件系统。MapReduce是一个将所有并行实现透明化,只为用户提供简单接口,并具有快速并行计算能力的并行编程模型。本文首先介绍了Hadoop平台的背景,包括它在技术背景上的产生与发展,在应用背景上的应用与前景。之后对Hadoop的关键技术HDFS、MapReduce和Scheduler进行研究分析。在此研究基础之上,本文指出MapReduce应用可在程序、参数和系统三个层面进行优化。程序和参数两个层面实现优化的可选项很多,本文在第三章对此作了详细阐述。Hadoop在管理资源中将内存和CPU两种计算资源捆绑在一起,然后再根据任务类型分为Map Slot和Reduce Slot两种资源模型。这种管理机制实现简单,但是存在资源囤积现象,降低了资源利用率。本文在第四章对这两种计算资源进行松绑,并定义了memSlot和cpuSlot两种资源模型。在资源分配时,根据Map/Reduce的实际需求来派发两种资源。在7节点的PC集群上对21GB的日志数据进行处理,改进方案实现了内存利用率提升3.5%,CPU利用率提升4.3%,有效解决了资源囤积现象。MapReduce应用在运行中会有大量的排序操作。这些排序大多又是迭代执行,性能消耗较大。本文第五章以此为切入,重新梳理了Shuffle阶段的执行流程。研究了以更加高效的计数排序代替快速排序。同时根据Combiner的定义对Shuffle执行进行分支。一个分支删去了spill阶段的分区内快速排序和combine阶段的归并排序,减少性能消耗。另一分支提前执行Combiner,提升数据处理效率。两个分支在7节点的PC集群上对21GB的日志数据进行处理,都实现了约半小时的效率提升。
其他文献
目的:比较并研究膝骨关节炎肌骨超声和X线片的表现特点。方法:应用数字随机法抽取本院放射科2017年10月—2018年10月间使用肌骨超声和X线片检查的85例(94膝)膝骨关节炎患者作
钛合金由于拥有轻质、强度高、耐腐蚀、耐高温等独特优点而被广泛应用于航天、航空、船舶、化工等领域。强力旋压成形过程中,坯料变形区处于三向压应力状态,提高了材料的塑性
古洪水水文学的核心内容是古洪水重建,我国学者对长江、黄河、海河和淮河四大江河进行古洪水水文学研究取得一定的研究成果,但古洪水重建中对流量的恢复主要采用水位-流量关
随着无线通信技术、计算机技术、互联网技术的快速发展,无线传感器网络被越来越多的应用到现实领域中。由于传感器节点具有体积小、功耗低、无线通信能力强等许多优点,使得无
高超声速飞行器具有重要的军事战略价值和广泛的民用前景,是21世纪航空航天领域的研究热点。由于高超声速飞行器普遍采用轻质材料和机身/发动机一体化技术,使得气动、推进与
本文主要是探讨如何让学生发挥其学习的主动性和积极性。其中激励是一种最有效的途径之一。而成功又是最好的一种激励。同时还阐述了让学生获得成功的方法。
通过对普洱茶产业链的研究,探讨了普洱茶产业的发展。对普洱茶产业链发展的现状进行全面分析,寻找影响普洱茶产业链发展的因素,提出普洱茶产业链发展的具体措施与建议,达到延
雷电灾害给人类带来了不可估量的损失。在当前社会的建筑领域中智能楼宇尤为突出。但是改革开放的三十多年来,随着我国经济的飞速发展,各种高层的大厦以及其他建筑物如雨后春
混凝土早强剂是一种可以加速混凝土早期强度发展的外加剂,对于加快工程进度,提高工程作业的周转率有重要作用,其掺量一般不会超过水泥质量的5%。首先对目前早强剂的种类和用
从勺容比、装车周期、电铲生产能力等方面分析了哈尔乌素露天煤矿495HR电铲原配置60.4 m3铲斗存在的问题和应用52.8 m3铲斗的效果,认为小铲斗更为合理。理论分析表明,与MT550