基于MapReduce数据倾斜的负载均衡算法研究

来源 :安徽理工大学 | 被引量 : 2次 | 上传用户:ruiye
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
MapReduce作为一种分布式编程模型,被广泛应用于大规模和高维度数据集的处理,在海量数据处理中显示出较好的并行性以及扩展性。其采用简单通用的Hash函数对数据进行划分,当数据分布不均匀时,常会出现数据倾斜的问题。现有的解决数据倾斜方法多是增添一轮采样操作,确定key值频率再重新执行数据分区。但是增加的采样作业会延迟原作业的运行,例如基于MapReduce实现的并行聚类算法需要进行多次迭代运算,且对于各轮计算,reducer的数据分布情况不尽相同,现有的方法将增加多轮采样作业。针对该问题,本文提出一种动态分区策略,当发生数据倾斜时,更改剩余数据分区函数以解决数据划分的不均衡。首先,在Map运行过程中增加计数器,统计经Hash法分到各reducer的数据量或记录数,并将这些消息通过心跳机制发送到Job Trackcr;然后,Job Trackcr根据全局的分区信息建立数据倾斜模型,得出各reducer负载情况用以判断存在数据倾斜的reducer;最后,Job Trackcr计算倾斜reducer与负载较轻reducer的hash差值,即分区偏移值,并将它发送到Partitioner用来在分区过程中动态修改原分区函数。该函数中剩余分区的hash结果将加上其对应的偏移值,倾斜数据就会发送到负载较轻的reducer上处理,使各节点的负载达到均衡。此外,本文考虑集群中节点的软硬件异构性,在数据倾斜模型中加入各reducer性能参数,使本文方法在异构的集群环境中也能较好地均衡集群负载。将本文动态分区策略和Hash方法以及现有的动态采样方法对比,通过在符合词频分布规律的数据集上运行Word Count程序,验证本文方法的有效性;在真实数据集上运行改进的k-means++算法,比较三种方法平衡数据分区后MapReduce的执行效率。实验结果证明本文策略解决了MapReduce作业中的数据倾斜问题,且在稳定性与执行时间上优于Hash和基于采样的动态分区法。
其他文献
2002~2004年,在蟒河自然保护区对北红尾鸲的繁殖习性进行了观察.结果表明,该鸟每年3月上旬迁入该区,10月下旬迁离.3月下旬营巢.4月中旬产卵,窝卵数3~6枚.孵化期12~13天,孵化率为
随着信息技术的发展,无线通讯技术已经广泛应用到人们生活的各个方面,给人们带来了巨大便利。汽车是人们出行的主要工具,随着生活质量的提升,人们对汽车信息传输与通讯提出了
通过对煤柱强度的影响因素分析,探讨在不同形式下煤柱受力和变形的一般规律,研究锚杆对煤柱的加固机理,为优化煤柱加固设计提供依据。
决定教育的最后根据是哲学戚万学现代社会是以科学的高速度发展为特征的。科学是影响乃至决定现代社会的发展、主宰人类生活的重要力量。所以,在现代人的头脑中滋生唯科学为高
迅速发展的广域网技术使公网带宽成倍增长,同时又为企业VPN网络提供了广阔的发展空间。VPN技术已逐渐成为企业网安全建设的必要选择。本文针对市场应用的发展需求,介绍了企业
海螺集团成立以来,依靠着先进的技术水平、强大的管理体系和人才、资金等综合优势,重组整合37家公司,不仅和新建扩建项目一起共同推动了“海螺”的发展壮大,而且为行业技术进
根据认知语言学关于语言认知原理和类典型概念,结合品牌(名称)是一个语言认知范畴的观点,借用认知语言学发现的类典型演进性和基本特征相对不变性理论,以卡菲勒的延伸模型为基础,通
Penman-Monteith方法需要的气象资料较多,在气象资料不全时无法使用,并且该方法不能直接预测参考作物蒸发蒸腾量(ETo)。参考天气预报的常规预报项目,将日最高气温、日最低气温、反
党的十九大报告提出了中国具有全局性、战略性、前瞻性的行动纲领,描绘了中国未来发展的基本战略构想,开启了中国全面建设社会主义现代化国家新征程,以求实现中华民族的伟大复兴
报纸
陕西省是西部矿产资源大省,地形环境条件复杂,地貌类型多样。复杂的地形地貌加之人类的采矿活动,地域内矿山开采引起的崩塌、滑坡地质灾害较为发育,严重威胁了矿区居民生命财