异构Spark集群Straggler策略研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:bian123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Spark是一个基于内存计算的可扩展分布式计算框架。Spark将作业分解为较小的任务,并将任务调度至集群中各个节点上并行运算以提升作业执行效率。部分任务由于常见的节点故障、网络拥堵和I/O异常等原因成为Straggler任务,即同一阶段下相较其他任务耗时更长的任务。Straggler任务会延长作业的执行时间,影响Spark集群的整体性能。同时,随着数据中心集群硬件持续扩展,异构集群成为必然,Straggler问题在异构环境下表现得更为突出。当前应对Straggler问题的主要方法是推测执行策略,其设计思想是以空间换时间,在作业运行过程中,对Straggler任务进行识别,然后将其副本调度至其他节点,取率先完成任务的结果作为最终结果,以此提高任务的运行效率。论文深入研究Spark框架下的推测执行机制和副本任务调度策略,并提出了优化方案,以缓解异构Spark集群下的Straggler问题。具体工作如下:1.针对异构Spark集群,默认推测执行策略对Straggler任务识别精度低,同时未考虑Straggler任务的成因,对识别出的所有Straggler任务进行简单地备份执行,使得推测执行策略的有效性降低。针对上述问题,论文构建了多阶段时间预测模型,进而提出了基于任务评估的推测执行策略DBMPTE,依据Straggler需处理的数据量和任务进展对副本任务的备份执行进行评估,筛选出可加速的Straggler任务。通过实验将DBMPTE策略与原生未开启推测执行策略和默认推测执行策略进行对比,结果表明DBMPTE策略能更有效地识别可加速的Straggler任务,在缩短应用执行时间的同时降低集群计算资源开销。2.由于默认副本调度策略对任务数据本地性的粗粒度考量,且未考虑异构集群下节点性能的差异,使得副本任务的调度存在一定的随机性,可能将副本任务调度至另一“慢”节点,导致推测执行策略失效。针对上述问题,在DBMPTE策略的基础上进一步提出了基于节点性能的本地优先副本调度策略HSBTS。实验对比了默认推测执行下的默认副本调度策略、DBMPTE下的默认副本调度策略和DBMPTE下的HSBTS策略,结果验证了HSBTS策略调度的有效性。研究表明,异构Spark集群下的Straggler问题客观存在,但可通过对Straggler任务的准确推测和副本任务的有效调度进行优化。论文提出的DBMPTE推测执行策略和HSBTS副本调度策略能有效缓解Straggler问题对作业执行延迟的影响,提升集群的运行效率。
其他文献
本文主要分为三部分。第一部分针对一维双侧空间分数阶非线性反应扩散方程的初边值问题,利用隐式中点公式离散时间偏导数,拟紧差分算子逼近Riemann-Liouville空间分数阶导数,构造出一类新的具有高精度的差分格式,通过能量法证明了该格式的稳定性和收敛性。数值实验表明了数值方法是有效的。第二部分针对二维Riesz空间分数阶非线性反应扩散方程的初边值问题,应用二阶向后微分公式离散时间偏导数,四阶紧差
分数阶(偏)微积分广泛应用于许多科学与工程问题,如模拟异常运输现象、声衰减现象、集成电路、医学、材料时变行为、无序半导体传输等,因此引起了众多学者的研究兴趣,并获得了大量的理论成果。然而,分数阶微积分方程的解析解结构复杂,甚至求其解析解非常困难,这使得分数阶微积分方程的数值方法成为研究热点。其中,波形松弛方法具有高效、易并行等特点,已在常微分方程和偏微分方程中得到普遍应用。但是,受时滞现象、记忆性
本文针对半线性椭圆方程,研究基于梯度重构的后验误差估计及自适应有限元方法.首先针对线性椭圆方程,提出新的梯度重构型后验误差估计子,证明该估计子的可靠性和有效性,同时设计自适应算法并证明其是收敛的.其次,根据半线性问题与相应线性问题之间的联系,针对半线性椭圆方程,构造基于梯度重构的后验误差估计子,证明该估计子的可靠性和有效性,并分析其自适应算法的收敛性.最后,给出一些数值算例,验证理论结果的正确性,
在人体中,最大的器官是皮肤,它保护我们的机体免受外界的伤害,通过排出汗液带走多余的热量,同时皮肤还能够使我们感知冷暖并抵抗外界的压力。每年因烧伤死亡的人数不在少数。
目的:此项研究目的为观察定点旋转拔伸手法结合口服独活寄生汤治疗风寒湿痹型神经根型颈椎病的轻中度患者的临床疗效。通过观察患者疼痛缓解及功能改善等方面的差异,探讨其治
目的肥胖患者颈部的皮肤松弛以及脂肪层较厚,使得其颈部显得粗短肥大和对臂丛神经的定位增加了难度。通过超声的引导可以观察到颈部深层组织结构以此来监测穿刺针的穿刺位置,
阿尔茨海默病(Alzheimer’s disease;AD)是一种以进行性的认知障碍和记忆障碍为特点的神经系统退行性疾病。目前研究认为β-淀粉样蛋白(Aβ)是导致阿尔茨海默病的关键因素。
背景和目的内镜逆行胰胆管造影术(Endoscopic retrograde cholangiopancreatography,ERCP)问世于上世纪六十年代,开创了胰胆疾病的新领域,随着近年医学影像学、医学材料的迅
目的:通过观察低氧环境下汉族EH患者血清胱抑素C(Cys-C)、尿酸(UA)和血清铁(SI)水平的变化,探讨低氧是否对EH患者血清Cys-C、UA、SI产生了影响及其这三个指标与血压之间的关
目的:西宁地区关于慢性肾脏病(Chronic kidney disease,CKD)流行病学的相关研究几乎是暂缺的,对于CKD危险因素的相关知识缺乏一定的了解和认识。本研究旨在通过调查西宁地区6