Spark计算框架下数据倾斜优化策略研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:chaoshi648
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Spark是基于内存的分布式数据处理框架,具备海量数据处理的能力,已成为大数据领域研究的热点。在Spark中的Map和Reduce阶段存在Shuffle过程,将Map的输出结果传输到Reduce端。由于Shuffle过程中的性能严重依赖于数据分布,当存在数据倾斜问题时,现有Hash分区算法无法保证Reduce阶段节点负载平衡,从而影响作业的执行时间。论文研究了Spark计算框架内RDD分区策略和Shuffle机制,对比当前该领域最新技术,提出基于Key分布的动态重分区策略和基于代价模型的分片策略,缓解了Reduce端因数据分布失衡而造成的慢任务压力,进而提升Spark集群任务中作业处理效率。具体完成了以下工作:1.针对Spark Shuffle过程中由于数据分布不均、集中出现很多相同Key数据时,会导致某个Key所在Task的数据量过大造成数据倾斜的问题。设计了动态采样方法,在任务执行过程中利用直方图先统计各节点上的Key频次分布情况,收集后生成全局的Key频次分布直方图,据此提出了基于Key分布的动态重分区策略(DR)。最后通过实验将DR算法与Spark默认的Hash分区策略、Fine Partitioning算法和Balanced-Schedule算法进行比较,结果表明本策略能够减少计算任务的整体执行时间,从而提升Spark集群执行效率。2.在DR算法的基础上进一步做出优化与改进,提出基于代价模型的大分区分片机制(OFCM)。利用cluster(簇)的大小和计算复杂度两个方面对RDD分区中的计算权重进行评估,再将大分区等分为多个小片段,必要时增加额外的分片复制操作。并且建立代价模型来平衡复制带来的开销和数据平衡程度。实验通过改变影响因子对比了OFCM与DR算法,结果表明在大数据严重倾斜的应用场景,使用OFCM算法可以有效地缓解集群计算压力,从而解决数据倾斜问题。研究工作表明,Spark计算框架下Shuffle过程中的数据倾斜问题是客观存在的,但可以通过检测发现倾斜Key和采用合理高效的重分区策略加以改善。论文提出的动态分区策略及基于代价模型的分片策略可以有效解决数据倾斜带来的作业执行延迟的问题,显著地提升集群任务执行效率,具有重要的理论参考价值和实用意义。
其他文献
目的:归纳晚期肺癌患者临床特征,探讨晚期肺癌患者证候特点,总结晚期肺癌患者中药运用规律,为临床诊疗提供研究依据。资料与方法:收集2018年3月至2019年2月于辽宁中医药大学
背景:子宫腺肌病(Adenomyosis,AM)为育龄期女性多见且难治的良性疾病,却表现出一些类似恶性肿瘤的生物学行为,如:异位病灶异常增殖、浸润、甚至向邻近组织侵袭等。该病具有形
研究目的ε毒素(ETX)在B型和D型产气荚膜梭菌致病过程中起着关键作用,对我国及世界其他地区畜牧业造成严重危害。另外,由于其高毒性的特点,ETX还是一种潜在的生物恐怖剂。然而,
时间域激电法是使用范围较广的地质勘探方法,其原理和数据处理方法已有较为成熟的理论体系,但是国内外激电仪器大多采用面板操作的方式进行仪器控制且数据存储容量较小;伪随机电法方法具有较好的抗干扰能力,但是其方法和仪器仍处于研究阶段或初级应用阶段,没有较为完备的理论体系和成熟的应用产品。在此背景下,该论文基于测控教研室已有的大功率电法发射机和多通道电法接收机,开发了时间域激电和伪随机数据采集系统,实现了仪
研究背景:男性不育发病率逐年升高,已成为全球性的健康问题。男性不育症发病机制复杂,可由先天或继发性泌尿生殖系统异常、生殖腺感染、内分泌紊乱、精索静脉曲张、线粒体功
泥石流是自然界一种常见的地质灾害,目前对泥石流的研究也非常多,泥石流外界激发因素多为降雨,但对于新疆这种地广人稀、山区面积较多的地方,很少有降雨监测设备安装,目前能收集到的降雨数据资料很少,多数情况下无法获取泥石流发生时的准确数据。鉴于此,本文以新疆自治区莎车县塔什纳村1号沟2016年7月9日爆发的泥石流为研究对象,在现场调查的基础上,对泥石流启动机制及泛滥区开展研究,得出以下结论:(1)通过现场
目的:阐明肿瘤坏死因子α诱导蛋白 8样蛋白 3(tumor necrosis factor-alpha-induced protein 8-like 3,TIPE3)通过生促红素人肝细胞 A2(erythropoietin-producing human hepa
图像特征的准确提取是直接影响计算机视觉系统性能的一个关键因素。然而,在多雾的天气条件下,由大气颗粒引起的光散射现象使得图像质量严重下降,模糊图像的许多特征都被掩盖
甲氧基多溴联苯醚(MeO-PBDEs)和羟基多溴联苯醚(OH-PBDEs)作为多溴联苯醚(PBDEs)的衍生物是一类新型有机污染物,近年来在各种环境介质和生物样品中陆续被检出,因此备受相关科研人员和环境工作者的关注。本研究在前人研究的基础上,对样品前处理条件进行了优化,建立了OH-/MeO-PBDEs的高效质谱分析方法。甲氧基多溴联苯醚的高效质谱分析:通过对样品进行冷冻干燥处理,用正己烷/二氯甲烷
目的:系统评价了加减桃红四物汤治疗糖尿病周围神经病(Diabetic peripheral neuropathy,DPN)的疗效及安全性。方法:检索Pub Med、CNKI、CBM、维普、万方等数据库。纳入加减桃