面向内存计算的Spark性能优化技术研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:java_flash
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据平台Spark近年间已逐渐成为业界热点,其基于内存计算的特性在机器学习和神经网络等迭代式应用场景中可以提供非常快的任务运行速度,现已被应用于百度、美团、腾讯和阿里巴巴等公司的业务中。最大的Spark集群拥有数千节点和TB级内存,支持处理的数据量级高达PB级,然而集群节点之间因为地域差异、配置更新和集群扩展等原因往往存在较高的异构性,如何更好的利用集群中的资源来提高平台性能现已成为当前研究的热门方向。本文针对Spark运行过程中的任务调度与缓存替换两个方面,对其性能优化技术进行深入的研究与改进,主要工作分为两部分,即提出基于改进量子蚁群算法的任务调度机制和提出基于RDD权重和双队列的缓存替换与预加载机制。下面将详细介绍上述两部分的研究工作:1.提出一种基于改进量子蚁群算法的任务调度机制。针对Spark默认任务调度机制导致高性能节点的硬件优势无法被充分利用,从而造成任务分配不均和内存频繁溢出的问题,首先,综合考虑节点的硬件能力、当前状态和网络传输速度,结合内存溢出现象对任务完成时间造成的影响,从而设计一种异构集群中的任务完成时间度量方法。然后在量子蚁群算法的基础上进行改进,通过最大最小量子信息素更新原则来控制量子信息素概率幅的范围以增大搜索空间,结合动态灾变策略避免量子蚁群算法的寻优过程陷入停滞,并采用异构集群中的任务完成时间度量方法衡量个体的适应度,提出一种基于改进量子蚁群算法的任务调度机制。仿真实验结果表明,本文提出的基于改进量子蚁群算法的任务调度机制能够有效提高Spark性能,在任务完成时间上较现有改进算法节约10.9%,并同时减少17.9%的内存溢出次数。2.提出一种基于RDD权重和双队列的缓存替换与预加载机制。针对Spark默认缓存替换机制在内存不足时将重要的RDD驱逐出内存,导致其复用时造成巨大重计算开销的问题,首先在综合考虑RDD自身属性的基础上,加入了对复用时刻集群负载状态的分类作为影响RDD重要性的因素,设计一种基于负载预测的RDD权重模型(Load Prediction based Weight,LPW),从而更全面的衡量RDD权重。然后在LPW模型的基础上结合双队列的思想,提出一种基于RDD权重和双队列的缓存替换与预加载机制(Weight and Dual Queues based Cache Replacement and Preload,WDQCRP),其中包括最小代价替换算法和最大权重预加载算法。最小代价替换算法可以在内存空间不足时根据RDD的生成时间与所在节点的磁盘性能来决定内存中替换出的RDD是否缓存到磁盘,同时最大权重预加载算法可以在内存空间充足时自动将磁盘中的RDD加载到内存中,从而避免复用时再从磁盘读取的等待时间。仿真实验结果表明,本文提出的WDQCRP机制能够有效地提高平台性能,在任务运行时间上较现有改进算法节约8.02%,同时提升9.59%的RDD访问命中率。
其他文献
工业机器人已广泛的应用于工业生产过程中,为此如何进一步的提高工业机器人的工作质量已成为我们不懈的研究方向。机器人是一个复杂的、多输入多输出的、非线性的多耦合系统
立体匹配是一种根据平面图像来恢复真实场景深度信息的技术,其做法是从两个或多个相同场景的图像中找出匹配点对,然后根据三角测量原理计算点对所对应的空间物理点的深度。立
人体动作识别已经应用于多个领域,是计算机视觉科学中的一个热门研究方向。动作在空间和时间维度上具有多样性和复杂性,以及动作识别是一些其它领域的关键,因此对动作识别的
随着执行器的不断发展,基于电热相变原理执行器因具备良好的形变特性、柔顺性等特性被研究者关注,该类执行器可与环境产生优异的共融性,在软操作设备、仿生设备、医疗等领域
播种作业是保证作物产量的重要环节,提升播种质量与效率对于保障国家粮食安全具有重要意义。气流输送式播种机是一种已在国外广泛应用的精量播种机,具有适应性强、效率高、节
随着广播电视事业的发展,广播电视无线传输领域经历了从电子管时代到固态化时代再到目前逐步进入的数字化时代,各广播电视无线发射台也逐步适应时代的发展,引入各个时期的技
微表情是指一种持续时间极短且不能自主控制的面部表情,它可以揭示人类试图隐藏的某种真实情感,因此在测谎、警察诊断、商务谈判、精神分析等方面得到了广泛应用。相比于宏表
黄河流域面积广阔,涉及9省区66地市(州、盟),流域水资源在不同地区、不同用水部门实现的价值具有差异性,研究黄河流域水资源经济价值空间分布及其影响机制,对实现流域水资源
计算机视觉系统已经广泛地应用于各类户外场景中,例如城市交通、视频监控、遥感成像、航拍、机器人系统、工业控制等领域,并且发挥着越来越重要的作用。但是,当雾霾严重、烟气和灰尘弥漫于空气中时,在如此恶劣的天气状况下,大量的微小水滴和气溶胶颗粒悬浮于空气中产生散射作用,这将会导致室外机器视觉系统拍摄的图像具有对比度低、色彩信息严重丢失并且掺杂大量噪声等特点,这严重降低计算机视觉系统在室外实际情况下的工作性
颅面复原技术是法医人类学的热门研究课题。颅面检索包括颅骨检索和复原面貌检索两个技术环节。颅骨检索是从颅面数据库中检索出与给定颅骨形态最相似的颅骨。复原面貌检索是