Apache Spark分布式并行计算框架优化技术研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户：jiahongtao

【摘要】

：

【作者】

：

付仲明

【机构】

：

湖南大学

【出处】

：

湖南大学

【发表日期】

：

2020年01期

【关键词】

：

MapReduce Spark 推测执行数据偏斜通信延迟负载均衡

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着计算机技术的飞速发展,各行各业的数据以指数形式爆炸式增长。大数据时代已经来临,给互联网行业带了巨大的机遇与挑战。一方面,大数据资源蕴含着巨大的社会价值和商业价值,有效地管理这些数据、挖掘数据的深度价值,对国家治理、社会管理、企业决策和个人生活将带来深远的影响。另一方面,大数据有着数据量大、增长快、类型多、难辨识和价值大密度低等特征,传统的数据处理系统和技术已经很难满足大数据处理的需求。当前,并行处理是处理大量数据有效的方式。Map Reduce已经发展成为标准并行编程模型。作为Map Reduce框架流行的开源实现之一,Apache Spark具有高效性、可扩展性、容错性和易用性等优势,在学术界和工业界得到极大关注和广泛使用。尽管与Apache Hadoop相比,Spark基于内存计算提供更加强大的计算能力,但在实际使用中仍受到性能瓶颈的困扰。因此,如何改善Spark在面对大数据处理时的性能已经迫在眉睫。鉴于此,本文分别从容错机制、任务调度、数据通信和任务负载均衡等四个方面,对基于内存计算的Spark分布式计算框架的性能优化展开研究。本文的主要工作和创新点如下:（1）从容错机制方面,提出了一种异构环境中智能推测执行策略,来解决Spark中的Straggler问题。由于一些固有的缺陷,Spark中原始的推测执行机制不能有效解决该问题,尤其是在异构集群环境中,甚至引起性能的下降。本文中针对异构环境着重解决推测执行的三个关键问题:慢任务判断、备份节点选择和推测任务有效性保证。此外,为了尽量减少Straggler的误判,考虑数据本地性和数据偏斜因素的影响。在Spark集群中使用多个微基准（Sort和Word Count）、宏基准（Kmeans和LDA）和Hi Bench评估性能。实验结果表明所提出策略将Straggler判断准确度提高到了80%、召回率提高到了90%以上,以及平均查找时间减少了60秒以上。（2）从任务调度方面,提出了一种最优的本地性感知任务调度算法,以获得每阶段内任务的数据本地性全局最优。Spark任务调度器采用贪婪的调度策略没有考虑任务放置之间的相互影响,导致数据本地性局部最优。本文针对Map和Reduce阶段通信模式不同,利用二分图分别对Map和Reduce任务调度进行统一建模,然后制定最小化总通信代价的调度方案。最后将该任务调度问题转化为图匹配问题进行求解。在Spark集群中使用多个微基准（Word Count和Join）、宏基准（Page Rank和LDA）和Hi Bench评估性能。实验结果表明与其他算法相比,所提出任务调度算法可以减少35%的作业执行时间和38%的网络流量。（3）从数据通信方面,首次提出一种优化总通信距离的Executor分配方法,以减少任务数据通信延迟。Spark中提供两种Executor分配方法:Spread Out和No Spread Out,都有可能导致任务之间较远的数据传输距离。本文通过计算Executor距离矩阵,制定最小化总通信距离的Executor分配方案。然后针对Executor之间距离满足和不满足三角不等式两种情况,分别提出一种最优Executor分配近似算法和一种Executor集合扩充算法。在Spark集群中使用多个微基准（Sort和Join）和宏基准（Page Rank和LDA）评估性能。实验结果表明所提出方法可以减少24%～45%的任务数据访问时间。（4）从任务负载均衡方面,提出一种自适应中间数据分区方法,以使Shuffle阶段数据分区均匀。Spark中提供的哈希（Hash）和范围（Range）分区器很容易导致Reduce任务负载失衡,而这对于Spark Streaming流计算环境中作业的性能影响尤其明显。本文根据先前已处理微批预估下一批作业中间数据key分布。然后针对中间数据分配不均,在范围分区方案基础上提出了一系列优化措施,其中特别考虑了Shuffle操作前后的分区平衡。在Spark集群中使用多个微基准（Word Count和Sort）和宏基准（Page Rank和LDA）评估性能。实验结果表明所提出的分区方法可以平衡Reduce任务负载。本文工作有较大的理论和应用价值,特别是在大数据背景下,改善Spark分布式框架的性能,充分利用大数据平台的并行处理能力,对提高海量数据处理中的各种应用性能有很大的实际意义。

其他文献

中、下承式拱桥吊杆病害分析及更换技术研究

学位

高性能脉冲光纤激光器及其动力学特性研究

具有高效率、高可靠性、高光束质量及高集成度等独特优势的高性能脉冲光纤激光器对传统激光行业产生了巨大影响,已成为激光领域充满活力和创新机遇的研究方向。其中,中红外光纤激光器、宽调谐光纤激光器和新型被动脉冲光纤激光器等高性能光纤激光器件及相关技术的研究取得了重要进展,并应用于生产生活和军事国防等领域。随着激光输出功率提升和激光工作波长拓展等应用需求的增加,亟需深入认识脉冲光纤激光器的动力学演化特性,以

学位

脉冲光纤激光器耗散孤子二维原子晶体黑磷锁模调Q

对抗样本技术在恶意软件检测和自动驾驶应用中的研究

基于机器学习、人工神经网络方法的人工智能技术及其相关应用,目前正得到前所未有的发展机遇。近年来,随着高性能计算技术的升级、各类优化算法的完善、5G网络的商用化,智能物联网技术的发展,以人工智能技术为基础的产品研究与应用正得到了国内外各行各业的重视。近年来从中央政府到地方机构,各级政府正在大力建设智慧城市、人工智能产业园区,行业巨头也正在逐渐完善各自在人工智能领域的产业链布局,创新型企业也正在加大对

学位

对抗样本人工智能安全机器学习恶意软件检测自动驾驶安全

基于颗粒形貌分析的磨细粉煤灰水化行为和性能研究

学位

运动通过脂噬作用调节脂代谢及其分子机制

脂噬是一种选择性的自噬，可以选择性地识别并降解脂滴，在调节细胞脂代谢、维持细胞内脂质稳态中发挥重要作用。运动能够诱导脂噬，同时也是减控体脂的有效手段。本文将重点介绍运动与肝脏、胰脏、脂肪组织等重要脏器脂噬作用的联系，并总结归纳运动调控脂噬作用的分子机制，为采取运动方式防治脂肪肝、肥胖等相关代谢性疾病提供一种新的思路。

期刊

脂噬运动肥胖脂代谢

基于CFD耦合化学动力学的柴油引燃天然气发动机燃烧与排放机理研究

雾霾作为影响中国最为广泛的环境污染方式之一,严重影响到了我国人民的身体健康。同时,日益增长的能源需求,使我国面临严峻的能源危机。而内燃机既是造成雾霾的主要来源之一,也是能源消耗的主要工具。因此,寻找高效、清洁的内燃机替代燃料,并组织合理的燃烧方式,对于解决我国大气污染与能源危机具有重大意义。天然气作为储量丰富的清洁燃料,在内燃机上应用通常有火花点燃和柴油引燃两种方式,均引起了学者们的广泛关注。仅仅

学位

化学反应动力学柴油引燃天然气喷油参数CFD模拟计算燃烧过程

城市交通轨迹数据挖掘关键技术研究

随着我国城市化进程的持续推进,城市规模逐步增大,城市发展呈现多样性、动态性、复杂性等特点,对城市科学治理提出了更高要求,数据挖掘成为一项支撑性技术,特别是智慧城市的建设和发展,亟需从海量的城市运行数据中挖掘知识以支撑各行业应用。近年来移动定位技术和无线通信技术的快速发展,使城市交通领域积累了大量的移动轨迹数据,是智慧城市的重要研究对象之一,已经成为除图像、视频、音频等媒体数据之外的一种新型数据。海

学位

城市交通移动对象轨迹停留点有向线轨迹相似性轨迹索引热点区域数据挖掘

基于深度学习理论的桥梁结构损伤识别

学位

建构儒学学统：吕祖谦中原文献之学研究

本文旨从“中原文献之传”这一独特视角,探讨吕祖谦如何重建儒学学统。宋学的问题意识是重建内圣外王之道,而吕祖谦的中原文献之学正是对这一时代问题意识的回应。吕祖谦将传统思想之继承与时代思想之变革结合起来,走了一条以儒学学统为骨骼、以义理、辞章、考据、经济为血脉的儒学复兴之路。这条路既有别于朱熹以天理论为核心的宇宙本体论建构,又迥异于陆王挺立心本体所构建的意义世界。他以“中道”作为贯穿本体世界与意义世界

学位

吕祖谦中原文献之学宋学学统内圣外王四个面向

边界面法中近奇异积分技术和单元插值方法的研究

边界元法以其高精度、降维、自然地求解奇异性问题和无限域问题等特点,已被广泛应用于工程和科学问题的各个研究领域。但是,边界元法采用常规的拉格朗日单元近似几何变量和物理变量,显然会引入几何误差,从而降低计算精度。边界面法同样是以边界积分方程为理论基础,但直接在CAD模型上实施。因此,边界面法不仅继承了边界元法的所有优点,还避免了几何误差,从而自然地将CAE与CAD融为一体。在分析具有小特征或者薄型区域

学位

边界元法边界面法双层插值边界面法双层插值法扩展单元插值法无网格插值法近奇异积分技术奇异积分技术

Apache Spark分布式并行计算框架优化技术研究

与本文相关的学术论文