MapReduce集群的数据块副本策略研究

来源 :华东理工大学 | 被引量 : 0次 | 上传用户:likezzz21cn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
集群中的节点由于其硬件配置不同导致其性能不同,使得集群环境成为异构环境。然而,在以Hadoop为代表的MapReduce实现中并没有充分考虑到环境的异构性,致使节点的负载不能与其性能相适应且过多的Map任务需要从其他节点传输输入数据块,从而影响MapReduce在异构环境中性能。本文将集群环境的异构性纳入到数据块副本策略的设计中,从而提升MapReduce在异构环境中的性能。本文主要工作如下:1)分析了异构环境中MapReduce集群性能问题的原因。2)提出基于节点性能的数据块副本创建策略,使得在副本创建时,副本的分布与节点性能相适应。3)提出基于节点性能的数据块副本动态调整策略,根据集群的历史访问信息和给定的额外存储开销预算,对存储在集群中文件的副本数进行调整,并在调整过程中平衡异构节点间的负载。4)实验验证了本文所提出的策略在异构环境中能有效提升输入数据在本地的Map任务比例,缩短MapReduce任务的完成时间,并动态平衡节点间的负载。
其他文献
随着中国城市化进程的不断推进和城市地下管道设施不断完善,传统手工绘制的管道网络图已经很难满足现代化管理的需求。城市化过程中地质的变化引起的城市积水甚至洪水,已经严重
信息时代的到来对信息发布系统提出了新的要求,而传统技术下的信息发布系统却存在着效率代、兼容性差、扩展性差等缺点.CORBA(通用对象请求代理结构)规范作为新一代分布对象
随着信息技术的飞速发展,计算模式从自组织的大型处理机逐渐演变成按需处理的云计算。越来越多的大型公司开始为租户提供迁移服务和应用到公共云平台的机会,如亚马逊,微软,谷
近几十年来基于统计的自然语言处理方法逐渐兴起并成为当今的主流方法。而人工标注资源作为统计建模方法的主要知识来源,在当今的自然语言处理方法中发挥着重要的作用。在为统
随着烟草物流信息化、智能化的不断发展,在烟叶仓储中心建立智能化车牌识别系统(License Plate Recognition System,LPRS)也成为烟草物流信息化的重大需求。现有车牌识别系统仅满
该文首先概述了成本核算的基本方法,然后针对半导体厂的实际核算管理要求提出了一种新的综合成本核算算法,它以分步核算为基础,同时根据引进流程定额兼顾了品种和批次,考虑了
随着摩尔定律的发展,处理器中核的数量也在不断增长,片上网络已经成为影响众核处理器性能的瓶颈。因此,如何设计一款高性能低功耗的片上网络一直受到学术界和工业界的广泛关注。
多核处理器的内存系统对于提高多核处理器性能与可扩展性有重要作用。随着集成电路芯片规模的增长和工艺的细化,内存系统面临着诸多因素如芯片可靠性以及功耗等方面限制的挑战
首先,该文从对网络QoS的定义开始,对QoS参数作了全面的论述.传统IP网络只提供一种QoS,就是"尽力而为"的数据服务.以往的应用在这个服务之上能够很好地工作也取得了巨大的成功