基于MapReduce的并行计算框架研究与优化

来源 :电子科技大学 | 被引量 : 3次 | 上传用户：ychhome

【摘要】

：

如今,伴随着数据量地快速增长,海量数据成为困扰企业发展的因素之一。如何有效处理数据,减小数据访问的并发压力,成为大数据解决方案不断发展的动力。MapReduce是分布式计算

【作者】

：

洪波

【机构】

：

电子科技大学

【出处】

：

电子科技大学

【发表日期】

：

2017年01期

【关键词】

：

MapReduce YARN 缓存副本放置任务本地化

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

如今,伴随着数据量地快速增长,海量数据成为困扰企业发展的因素之一。如何有效处理数据,减小数据访问的并发压力,成为大数据解决方案不断发展的动力。MapReduce是分布式计算中具有重要意义的解决方案之一。它通过用户编写Map和Reduce函数来处理大规模数据集。YARN是Hadoop2.0以后设计出的新资源管理框架,MapReduce On YARN即MapReduce的第二版,它摒弃了第一代中的slot、TaskTracker和JobTracker等旧概念,保留原有计算流程,通过与YARN中的ResourceManager、NodeManager和Container等协调工作完成作业的执行。本文首先介绍Hadoop平台的相关知识,其中包括HDFS、YARN的体系架构、MapReduce工作原理和Hadoop作业调度算法。基于以上研究分析,指出MapReduce目前存在的不足。在作业执行过程中,MapReduce会读取处理大量数据,但这些数据在任务的读取、处理、写入结果的流程中与HDFS频繁交互,造成很多不必要的IO开销。待处理的数据会跨节点传输,网络状况对数据传输会造成一定的影响,这些将影响到作业的运行效率。有效地提高异构环境下的任务执行本地化效率是MapReduce中需要优化的关键点之一。本文针对于上述问题,将基于内存的缓存技术与MapReduce结合,利用目前业界流行的缓存思想和技术,着重于对缓存架构设计、缓存数据副本放置、缓存替换和任务调度等关键问题开展研究,旨在提高MapReduce的处理速度。主要贡献如下:1.针对于异构环境下的分布式存储特征以及MapReduce的分布式处理,设计适用于MapReduce的缓存系统,剖析系统内部的模块。2.针对于数据在网络传输中的耗费,根据节点之间的性能差异,参考HDFS的数据块副本放置策略,改进该策略中的不足,将数据缓存合理地放入不同节点上,为有效地实施任务本地化执行、数据容错和负载均衡提供保障。3.针对于提升任务执行调度的高效性,提出基于缓存感知的任务调度策略,按照任务优先级的不同安排任务的执行顺序。4.针对于MapReduce数据本地化处理,考虑文件分片的状态、访问频度等因素,提出新的缓存替换策略。

其他文献

基于机制设计的Web服务选择问题研究

随着计算机互联网技术和软件技术的发展,分布式应用越来越多,Web服务是当前构造分布式应用的标准框架。特别是SOA(面向服务的体系结构),云计算等技术的迅速发展,越来越多的企

学位

Web服务组合VCG机制组合拍卖贪婪搜索遗传算法

Buffer management and auxiliary routing in TODVRP

Ad hoc网络是一个由具有无线通信功能的节点组成的多跳无线网络，由于其独有的自组织特性，使得Ad hoc网络适合需要临时架构网络的场所，在军事和民用等领域具有很大发展前景。　　

学位

移动自组网性能分析路由协议缓冲区管理Ad hoc网络

多叉系统发生树最大一致森林问题的研究

求解2个给定的系统发生树的最大一致森林问题在计算生物学上是一个非常重要的NP-难问题。系统发生树包括了有根和无根2种情况。本文主要研究无根多叉系统发生树。生物方面：最

学位

最大一致森林固定参数算法多叉系统发生树无根

延迟容忍网络路由激励策略研究

延迟容忍网络(DTN)是一种端到端之间缺乏持续可靠连接、低数据率、链路高延迟的网络,同时也是一种资源受限型网络。节点以“存储—携带—转发”的形式转发数据,数据在网络中

学位

延迟容忍网络自私节点服务优先级声誉值激励策略

科研文献开放获取系统中的推荐算法研究与应用

随着开放获取在科研领域的发展,科研工作者们越来越习惯通过网络来进行文献获取和学术交流。如何在科研文献数量呈现爆炸式增长的情况下,为用户提供方便快捷的论文获取方式,

学位

开放获取系统论文推荐专家推荐混合推荐算法

基于能耗均衡的无线传感器网络层次路由协议设计

在大规模的无线传感器网络中，节点基本上采用无源节点并使用电池供电。因此，节点自身能量的有限性与通信距离的局限性将直接影响到整个网络的生命周期。路由协议作为无线传感器

学位

无线传感器网络层次路由协议能耗均衡节点设计

粗糙集理论在数据挖掘中的应用研究

粗糙集理论是一种能够很好处理不确定信息的数学工具。近年来，粗糙集理论在数据挖掘领域得到了越来越多的应用。聚类与属性约简一直是数据挖掘技术中的重点与难点，如何进一步地

学位

数据挖掘粗糙集K-means聚类算法属性约简粒子群算法限制容差关系

基于Petri网分解技术的电网故障诊断建模技术研究

Petri网凭借其描述异步并发和图形表示的突出能力成为了系统建模、行为分析的一个有力的工具，其应用也日趋广泛。然而，由其节点过多而引致的“状态空间爆炸”问题则一直是阻碍Petri网发展的瓶颈，尤其是在面对复杂而庞大的系统时，系统分析将会变得非常复杂。源于此，Petri网学者的工作重点之一就是要对Petri网进行有效化简，将Petri网分解为若干相对简单的子网。电网故障诊断是电力系统自动化的重要内容

学位

Petri网化简并分解电网故障诊断

入侵检测交换协议在分布式IDS中的研究与应用

随着技术的发展和网络规模不断扩大,各种复杂、隐蔽的攻击技术不断出现,这使得现有的入侵检测系统往往显得力不从心。对于大规模的网络数据和复杂的入侵行为,一种比较可行的

学位

网络安全入侵检测分布式协作相关性BEEPIDXP

使用CBCT投影数据的功能成像方法研究

近年来，癌症（恶性肿瘤）的发病率和死亡率都不断上升，并成为威胁人类健康的主要疾病。放射治疗是治疗肿瘤的主要手段之一。随着科技的发展，放疗已从二维的立体定向放疗发展到三维适

学位

肿瘤放射治疗功能成像引导锥形束CT模型参数

基于MapReduce的并行计算框架研究与优化

与本文相关的学术论文