Spark大数据平台Shuffle过程性能优化方法研究

来源 :北京工业大学 | 被引量 : 1次 | 上传用户:wazyymm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着大数据时代的到来,与之对应的大数据处理技术也不断发展,产生了众多优秀的大数据处理平台,包括Hadoop、Spark和Storm等,其中最惹人注目的当属Spark。随着Spark在国内外的广泛应用,它存在的一些问题也随之暴露。其中一个比较突出的问题是它的性能问题。如何对Spark大数据平台进行性能优化,从而提高集群整体效率,是大数据平台研究的一个重要课题之一。本文以Spark大数据平台的Shuffle过程为研究对象,通过分析Spark大数据平台Shuffle过程的底层执行机制,选择对Spark大数据平台Shuffle过程性能影响最大的两个方面进行研究:压缩算法决策方法和内存调度机制优化,最后设计并实现了一个Spark大数据平台管理和监控系统。首先,本文研究了Spark大数据平台Shuffle过程的实现机制,针对其压缩配置基本依靠用户经验进行配置的问题,提出了基于开销的压缩算法决策模型。实验表明该决策模型可以在小负载测试的基础上预测出实际负载下最优的压缩配置,预测结果的准确率为60%,采用预测的压缩配置相对于默认配置运行时间最高可提高30%,平均可以提高10%;其次,研究了Spark2.x版本、Spark1.6.x版本及以前版本Spark内存机制的不同,指出了在新版本中进行内存调度优化的重要作用。同时研究了Spark大数据平台两种不同内存调度算法FIFO和FAIR,通过实际例子对比了两种内存调度算法在处理均匀分布数据和不均匀分布数据时的性能,分析了两种调度算法的优点和缺点。考虑到FAIR内存调度算法只考虑了Task总数分配的平均性,而没有考虑到不同Task所需内存量的不同,提出了改进的内存调度算法。实验表明该调度算法在处理数据分布不均匀的数据时具有更低的溢出次数和更短的运行时间。最后,针对Spark平台配置和调优对用户基础知识要求较高的问题,设计并实现了一个Spark大数据平台管理和监控系统,该系统的功能是提供一个通用的管理框架,从而使用户摆脱系统低层的操作,以一系列基于可视化界面的管理、监控功能来提供Spark服务。系统最主要的两个功能就是管理和监控,管理功能通过一系列的可视化配置,使用户可以方便的管理集群。总之,本文对Spark大数据平台Shuffle过程性能优化方法进行了有益的探索,并在Spark平台Shuffle过程压缩算法决策和Shuffle内存调度优化两方面取得了一定的成果。这些成果对于Spark大数据平台Shuffle过程性能优化具有重要参考价值,对于提高Spark集群资源利用率具有重要意义。
其他文献
目的 观察益气养阴中药治疗糖尿病合并心脏病的临床疗效。方法 80例符合诊断标准的糖尿病合并心脏病(气阴两虚证)患者,按随机数字表法分为对照组、观察组各40例。对照组予常规
文章阐述了钎料润湿的基本原理,分析了关键工艺参数对钎料铺展性能的影响规律。针对温度、时间和表面状态等关键参数/状态,对无铅钎料SAC305在Au/Ni镀层上的铺展性能开展试验研究
三元复合驱作为三次采油技术最重要的稳产手段之一,能够快速有效提升驱油效果,使原油采收率得以最大程度地增加,但与此同时油井采出液黏度和密度也因此而发生改变,不仅加大了
综述一个多世纪以来,有压输水管道系统中有关气体释放、空穴流及液柱分离、计算分析方法、水锤防护及实验研究等方面的主要研究进展,并提出还需对气液两相瞬变流基本理论、空
本文提出了氢与硅基玻璃光纤的反应机理和模型,并应用统计热力学的配分函数导出了氢在光纤中扩散溶解过程的平衡常数K_(H_2)和形成OH基团过程的平衡常数K_(OH),氢扩散溶解和O
开展底泥质耕作层土壤的构建方法研究,是确保土地整治工程质量和效益的重要举措。该研究以河流疏浚底泥土地利用为主线,从底泥质耕作层土壤构建方法的基础理论、底泥环境肥力
目的:探讨内源性硫化氢(H2S)在八肽胆囊收缩素(CCK-8)减轻脂多糖(LPS)所致急性肺损伤(ALI)中的作用。方法:将84只SD大鼠随机分为正常对照组、LPS组(经气管内滴注LPS复制ALI)、NaHS(H2S供体
古生物化石与地质遗迹保护对于可持续发展具有重要意义.但是目前我国保护古生物化石与地质遗迹的法律存在严重缺陷,不能有效地打击侵害古生物化石与地质遗迹的违法犯罪行为.
随着年龄的增长,老年人身体各系统功能都有同程度的减退,特别是心、脑、肝、肾功能的衰退,致使老年人对药物的代谢和排泄能力降低,易造成药物在体内蓄积而出现不良反诮。而且老年
对信阳地区商丹断裂带南侧龟山岩组新元古代变质玄武岩进行了岩石学、地球化学及Sr-Nd同位素研究,分析结果显示该套玄武岩为亚碱性拉斑玄武系列,分为低Ti及高Ti两种类型:低Ti