MapReduce计算模型性能优化的研究

来源 :山东建筑大学 | 被引量 : 0次 | 上传用户:vincent_iong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着互联网、物联网和移动互联网的快速发展,每天会产生海量数据,数据处于爆炸式的增长状态,这预示着大数据时代的到来。大数据时代的数据具有数量大、结构复杂的特点,导致数据存储和计算难度的加大。Google提出的MapReduce分布式计算模型简化了海量数据计算的问题,成为研究的热点。所以本文对MapReduce技术的研究和性能的优化具有实际意义。MapReduce是一种分布式计算模型,它简化了程序员编写分布式程序的步骤,因此被广泛应用于大数据领域。Hadoop是MapReduce的开源实现,具备海量数据处理的能力。然而,它的一些处理机制影响了性能的发挥。比如:当数据出现倾斜时,原有的划分方法不能保证节点的负载均衡,集群性能会受影响。因此,需要优化现有的处理机制。本文研究的主要内容是:首先对Hadoop平台进行简单介绍,重点研究MapReduce计算模型,对其组成模块和运行机制进行深入的分析。在分析MapReduce源码的基础上,发现了当数据存在倾斜时节点会出现负载不均的问题和在异构环境下推测执行机制效率低的问题。针对数据存在倾斜负载不均的问题,本文提出了一种抽样的方法,利用抽样获取Map端中间结果的分布信息,在抽样的基础上结合数据局部性产生划分函数,可以使节点负载趋于均衡。针对原有的推测执行机制效率低的问题,本文提出了一种改进的LATE算法,在LATE算法的基础上,利用节点历史信息和数据局部性特点选择快节点备份执行,可以更准确的发现慢任务,提高集群的吞吐率。最后,本文搭建了实验平台对抽样划分方法和改进型的LATE算法进行实验验证。根据实验结果,本文提出的改进算法可以有效提高MapReduce的性能。
其他文献
无线网络技术是当今世界最热门的技术之一,得到广泛应用。随着无线通信技术发展及功能强大的无线终端设备的普及,无线网络的应用领域日益拓广,涉及军事、民用等诸多方面。相
免疫系统是目前已知的最精妙复杂的身体抵御外部有害物质的系统,它犹如一支训练有素的精锐部队,捍卫机体的健康。免疫细胞会对入侵者产生记忆,当下次同样的抗原入侵时,便以此
在面向服务的体系结构中,追求快速、高效且安全地建立服务协同往往是不够的。面对动态的现实环境,服务协同经常会受到各种异常的干扰,因而,服务协同的维护至关重要。本文以准
本文以国家863计划“新一代高可信网络”重大项目“基于宽带网络的旅游智能导航系统研究”为科研任务,设计并实现了旅游导航与救援系统的服务器端,论文完成的主要工作如下:(1)
随着无线移动设备的普及,各类多媒体应用越来越广泛。多媒体业务流对数据传输具有较高的要求,例如,实时语音通信业务就对时延和抖动都提出了极高的要求。因此,移动Ad Hoc网络
伴随着网络信息科技时代的来临,三维虚拟人建模技术在计算机视觉、影视制作、游戏设计等很多领域都有着越来越广泛和深入的应用。因此如何获得更加真实的三维虚拟人模型,并有
随着计算机技术水平的提高和社会信息化的发展,各行各业对软件的需求不断增加,随之而来的是数据量的成倍增长和功能的不断细化。为了满足新的需求,软件开发人员需要不断的更
基于BP算法的BP网络在计算上以并行为主,具有很强的鲁棒性和容错能力,并且非线性单隐层BP网络可以实现以任何精度近似任何连续非线性函数,因此BP网络在实际应用中受到广泛关注。
Web服务作为新一代的平台独立的分布式计算方式,具有适合异构系统集成、易于开发和部署、易于发现和调用等诸多优势,近年来逐渐流行,在很多领域得到了广泛应用,但是Web服务仍然面
一个移动Ad hoc网络(MANET)是一系列相互之间可以通信、完全自组织、自配置无线移动节点的集合。MANET网路由协议用于发现和维护节点之间的路由。Internet接入,通常是指MANET非