基于贝叶斯优化的Spark作业配置参数自动寻优方法

来源 :西南石油大学 | 被引量 : 0次 | 上传用户:linebarrel2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据计算领域,Spark系统已成为越来越受欢迎的计算平台之一。其功能涵盖了离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围非常广泛。但在实际使用中,由于Spark作业的配置参数复杂多样,加上性能调优又非常依赖于技术人员的实际经验,使得用户几乎不可能在短时间内获得最佳的配置参数。而如果没有对作业进行合理的性能调优,则很有可能增加作业的执行时间与提高其资源浪费率,如此便很难将Spark作为一种快速大数据计算引擎的优势完全体现出来。对此,本文提出一种基于贝叶斯优化的作业配置参数自动寻优方法。在对Spark作业执行原理进行深入分析的基础之上,通过解析Spark的历史日志信息以及远程监控计算集群的消耗情况,本文首先确定了影响Spark作业性能的若干主要特征。其次以作业数据大小、具体配置参数、集群资源使用等特征作为输入,以反映用户不同使用场景的作业执行时间或作业资源浪费率作为输出,建立起作业的性能预测模型。在此过程中,本文充分考虑Spark作业的类型繁多、而不同类型作业的资源使用率和性能特征有所不同等因素,以作业数据大小及Spark作业有向无环图为依据,使用K-means算法进行作业聚类,并通过对比常用机器学习算法的模型评价指标和算法复杂度,选择基于LightGBM回归算法,实现对不同的作业类型分别建立其性能预测模型。最后,本文运用贝叶斯优化算法,通过迭代执行性能预测模型的计算与修正,最终搜索出作业的最优化配置参数,达到Spark系统作业配置参数的自动寻优目的。分别使用默认配置参数、经他人已发表遗传算法搜索得到的优化参数、以及由本文所述方法得到的配置参数对未经训练的作业进行了不同角度的测试,结果表明本文所述方法能够有效地减少作业执行时间和降低作业的资源浪费率,据此验证了该方法的有效性和先进性,从而也表明了本文工作具备一定的创新性。
其他文献
随着现如今社会经济不断发展,各行各业对天然气的需求量也在不断增大,我国天然气管道的建设正处在高速发展期,十三五期间将会有几万公里以上的干线建设。输气管道具有高压、高危、线路长等特点。管道沿线自然环境恶劣,地貌较为复杂,管道经常遭受高风险环境的影响,极易造成整体移位、局部变形或应力集中,严重时甚至导致管道断裂破坏,造成巨大的经济损失和人员伤亡。目前,应力应变在线监测系统在国内长输管道应用很少,但在川
学位
时下,手机等移动设备的定位功能积累的大量的用户轨迹信息。随着云计算及人工智能的发展,这些海量的数据为学习人类行为轨迹提供了新的研究方向。即分析用户的历史签到轨迹行为预测用户接下来感兴趣的位置,兴趣点(Point-of-Interest,POI)推荐应运而生,并受到学术和工业界的关注。但兴趣点推荐相较于传统推荐具有更大的难度,用户签到数据稀疏度高和影响因素多,时空因素、社交因素等上下文信息和数据稀疏
学位
酸化和酸压一直以来都是碳酸盐岩油藏储量动用的核心技术之一,随着高温井数的增加,该类井在酸化和酸压改造中面临着一些难点,如酸岩反应速度快,不容易产生长的酸蚀通道;酸液滤失速度高,限制了酸蚀裂缝的有效延伸;酸液耐温能力差,难以有效实现深度改造;高温条件下缓蚀能力差,酸液对井下管柱腐蚀性很强等。因此在进行高温碳酸盐岩储层改造过程中对酸液性能提出了更高的要求。目前碳酸盐岩储层常用的酸液体系主要是交联酸和胶
学位
天然气作为现代化建设以及人民日常生产生活中重要的能源,具有燃烧清洁和使用便利的优点,而“西气东输”工程是国家天然气输送的命脉之一。本文针对西气东输管道秀延段的特点,对DD103跨越、DD165跨越和DD178三处跨越点进行了应力分析与安全性研究,对该跨越段管道的安全稳定运行具有一定意义。本文针对跨越管道应力分析与安全性研究,完成如下内容:(1)对发生失效事件的西气东输秀延段DD103跨越、DD16
学位
B型超声成像在临床上应用广泛。超声检查实时、无辐射、性价比高,拥有其它医学成像方式无法企及的优势。但是在实时B型超声成像中,图像的分辨率受到穿透深度、成像时间和成像设备的限制。针对这一局限性,本文提出使用超分辨率(Super-resolution,SR)技术增加B型超声图像的分辨率。近年来,卷积神经网络(Convolution Neural Network,CNN)在自然图像超分辨率重建中表现出良
学位
近些年来,随着大数据和人工智能的兴起,人机交互正在成为一个热门的研究领域,而人脸表情识别技术作为人机交互的重要接口,它承担了机器通过视觉理解人类情感的第一步工作,具有重要的研究和应用价值。人机交互的另一个重要的研究方向就是如何将算法应用于更小型化的嵌入式设备之中,这就需要解决嵌入式设备有限的算力和算法之间的矛盾。人脸检测技术是人脸表情识别技术的基础,本文首先对基于Harr-Like特征的人脸检测算
学位
超声剪切波弹性成像作为一种新兴技术很好的解决了早期超声弹性成像不能定量的计算弹性模量的问题。该项技术的基本原理是通过超声换能器激发声辐射力,使得剪切波在组织中传播,然后再计算出剪切波在组织中传播的波速,最后通过反演公式计算出弹性模量。剪切波弹性成像分为两个主要步骤:运动位移估计和剪切波波速估计。运动位移估计由于要计算多帧的超声射频信号,所以要消耗大量的时间。在医护人员在进行实际的诊断时,过长的成像
学位
随着多媒体技术,计算机图形技术,虚拟现实技术等等不断发展,虚拟培训在石油行业中得到越来越多的应用和重视,因其有着方便快捷,成本低,不受地域限制等等的优点而广为应用,但是纵观石油行业虚拟培训的内容和方向,现有的钻井培训系统主要针对的是钻井工艺方面的培训,而面对钻井过程中的突发事故,却缺少相关的培训系统开发,并且由于这些事故的突发性和特殊性,无法像传统钻井培训那样去到现场进行实地体验,所以为了提高钻井
学位
铝合金钻杆采用挤压的方式生产,挤压过程会有相应的织构产生。目前在铝合金加工过程中织构的演变规律上有很多相关研究,但对铝合金钻杆在挤压加工下的织构演化规律研究的还不够深入。本文借助晶体塑性有限元的方法来研究铝合金钻杆在挤压成形过程中不同部位的织构演化规律。通过Materials Studio软件计算得到铝合金材料的弹性常数符合参考范围,C11=111.941/GPa,C12=62.539/GPa,C
学位
命名实体识别的目的是识别给定文本中的人名、地名、组织机构名等有意义的实体,是自然语言处理领域一项基础且重要的任务,是许多下游任务的一个重要步骤,如机器翻译、关系抽取和自动问答等,具有相当大的应用价值。深度学习技术因其自主学习特定任务的特征表示能力在命名实体识别中广泛应用,并取得了巨大进展。但是,中文命名实体识别任务还存在一些问题:(1)中文命名实体识别在许多领域的标注数据是缺乏的,而且为深度学习模
学位