MapReduce模型的数据分配策略研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:pjq521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自2007年云计算诞生至今,它已经逐渐成为国内外IT界热门的概念,得到了广泛的关注。在当今互联网高速发达的环境中,面对数据量的急剧增长,如何快速有效的对海量数据进行存储和计算成为亟待解决的问题,这也是云计算诞生的原动力。但是对于云计算而言,它本身只是一种思维方式,虽然有硬件设施提供必要的环境,但是能够支撑云计算思想的编程模型更加重要。由Google提出的MapReduce并行编程模型,为云计算海量数据的处理提供了软件支持。Hadoop以一种可靠、高效、可伸缩的方式工作,在短短几年里成为了主流的开源云计算平台,但是Hadoop仍然是一个比较年轻的平台,在很多地方有不够完善之处,对其进行改进是十分必要的。通过对Hadoop平台下的MapReduce并行编程模型进行深入研究,主要针对MapReduce并行编程模型在Map端输出的中间数据分布不均衡现象提出解决方案,该方案的设计思路是用两个阶段MapReduce作业对上述问题进行处理,第一个MapReduce阶段用于对源数据集进行并行抽样,根据抽样的结果估计数据信息,提出一种称为LAB的分配策略,该分配策略对中间数据进行均衡分配;第二MapReduce阶段按照上述数据分配策略执行MapReduce作业。通过实验表明,该方案减少了作业运行时间,Reduce端输入数据达到负载均衡,从而证明改进方案的可行性和其优势所在。该方案能够充分利用计算资源,避免资源的浪费,提高了程序运行效率。
其他文献
科学计算可视化是1987年提出并发展起来的一项新技术,它应用计算机图形学及图像处理等技术将科学计算与工程测量中产生的数据转换成图形或图像,以直观的形式在屏幕上显示出来
复杂网络理论有助于理解研究对象间复杂的拓扑关系和动力学行为,其在互联网、社会学、生物学等研究领域中发挥了重要作用。复杂网络的聚类分析是复杂网络研究的一个重要方面,对
基因调控网络(Gene Regulatory Networks,GRN)是表示基因之间复杂的调控关系的网络,基因间相互的调控关系影响着生物体的各种生理活动和动作。基因调控网络的研究从基因间的相
在过去的几十年中,关系型数据库提供了完善和成熟的管理功能,然而随着Web2.0和大数据应用的不断落地,日益增长的互联网应用要求对海量规模及多类型数据进行有效管理,同时对系
随着教育体制的不断改革,继续教育的发展规模日益壮大。但与其相对应的信息管理建设还处于相对滞后的状态,开发安全易用的基于WEB的信息管理系统已成为继续教育管理进程中亟待
在信息技术迅猛发展的今天,各行各业在使用信息管理系统的过程中收集了大量数据。这些数据中有不少数据项涉及个人或公司的隐私,隐私泄露成为这些数据收集发布过程中不可避免的
视频序列中的运动目标的检测与跟踪是智能视频监控系统中最基础的两项核心技术,它们是视频监控技术智能化和实时应用的关键,也是计算机视觉方向的研究热点。在运动目标检测与
聚类分析是无监督模式识别的一个重要分支,作为一个重要的数据挖掘工具已经广泛应用于多个领域。它是把一个没有类别标记的数据集按照某种准则聚为若干类,使相似的数据集尽可能
在全业务运营时代,多样性客户的增多和业务种类的增多,使得网络规模也越来越大,运维和管理相对更加复杂。客户数量的剧增和客户需求的多样性对于运营商即是挑战也是机遇。挑
随着近年来银行、电力、交通、安检以及军事设施等领域对安全防范和实时监控系统的需求与日俱增,视频监控得到了迅速的发展和广泛的应用,该领域的智能化研究也引起了越来越多的