面向多核集群的层次化MapReduce模型的设计与实现

被引量 : 0次 | 上传用户:jwhyyx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
MapReduce是由Google公司提出的一种并行编程模型,由于模型本身非常简单而又具有丰富的表达能力,很快变成为Google内部系统架构的基本计算框架。Hadoop是MapReduce的开源实现,由于Yahoo!等大数据公司的投入,Hadoop系统得到迅速的发展和普及。MapReduce编程模型的简洁性和Hadoop开源实现的出现,使得由普通机器组成的集群有更多的机会运行各种大规模数据处理应用程序。这些集群上的节点往往都配备了多核处理器,也就是多核集群。这些多核集群中通常会有多个层次的数据局部性和并行性,它们对整体性能都有影响。但是目前很少有研究去分析、优化这类系统上的应用程序的性能。本文将选取具有代表性的MapReduce应用程序,分析其在多核集群上的性能瓶颈。目前主流的MapReduce实现——Hadoop是运行于Java虚拟机之上的,我们的研究标明这种基于Java虚拟机的运行时(主要是任务执行器)在单机上并不能充分利用数据局部性和任务并行性。基于这个分析,本文提出层次化MapReduce模型来对Hadoop进行扩展,并将一个共享内存多核系统上的MapReduce实现集成到Hadoop上来,我们的原型系统称为Azwraith。为了复用跨任务间的数据,Azwraith还实现了一个基于共享内存的高速缓存模块,从而显著地降低网络和磁盘的流量。这样的层次化MapReduce模型使得MapReduce程序能够在单机和集群这两个层次上充分利用系统的数据局部性和任务并行性。性能测试是在一个7台节点组成的小规模集群上完成的。实验数据显示,实现了本文提出的各种优化的Azwraith系统,能提高原始Hadoop实现1.4倍到3.5倍的性能。
其他文献
随着互联网技术的发展以及电子产品交互性的需求,视频图像早已成为人们获取信息的重要手段,市场对于视频图像质量的要求也不断提高。作为视频采集系统与后处理系统的承接环节
为得到综采工作面及其采空区的流场分布,基于通风网络理论推算得出采空区漏风阻力系数模型。该模型综合考虑采面的回采速度,顶板岩性,采空区倾向上顶板的沉降量等因素影响,利
研究证明股票首次公开发行(IPO)抑价现象在各国普遍存在,但不同地区、不同时期存在程度上的差异。更进一步的研究发现私募股权投资对上市公司IPO抑价度存在影响,但部分研究者
中国证券监督管理委员会在2005年8月重新启动权证市场,引入一小批权证进入市场交易,以此为打开中国金融衍生品市场、向中国证券市场提供更多投资工具的第一步。从某种程度上
目的:探讨双极人工股骨头置换术对老年股骨颈骨折(FNF)的治疗效果。方法:选取2010年9月-2015年9月在本院接受治疗的老年FNF患者60例,根据治疗方法不同分为对照组和观察组,每组30
改革开放以来,我国取得的成就有目共睹,经过三十多年来我国经济年均高速发展,GDP已经达到世界第二位,整体国民经济发展中,信息化产业成为拉动GDP高速发展的重要动力。近十年来,我国
为了了解结晶助剂(CGM)在铝酸钠溶液种分过程中的作用机理,研究CGM对二次成核和附聚过程的影响。通过对粒度分布及扫描电镜(SEM)照片的对比,探讨CGM对分解过程的影响。研究结
中国农民专业合作社发展过程中出现了合作社成员在集体行动中不愿付出而坐享其成的"搭便车"现象,这不仅阻碍了合作社的发展,也使内生型合作组织的形成化为泡影。本文运用"集
为防止发动机出口封闭母线受潮,绝缘子结露而发生接地故障,设有自动充气控制设备以保证其安全运行。但经过长时间的运行发现该设备结构复杂,故障点较多,可靠性差;经过对设备