基于容器环境的Spark性能预测优化工具

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:rifcumtd111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代催生出了以Hadoop和Spark为代表的大数据计算平台,其中已经被广泛应用于企业业务开发中的Spark是目前业界最常用的分布式计算框架,同时在容器环境下的部署方式也越来越成为云厂商的发展趋势。Spark提供了更快的运行速度和更方便的面向大数据开发工程师的编程接口,Spark程序的运行包含一百多个参数配置选项,不同的Spark参数配置对不同的Spark程序运行性能有着显著的影响,不同的参数之间也存在着微妙的相互作用,要想提升Spark程序的执行性能,通常是通过专家经验来调整配置参数调优,但是这样的专家很稀缺,而且人工调优也会消耗大量的时间成本去测试,因此一个能够自动优化Spark的工具很有必要。设计并实现了Spark程序调优工具,首先收集Spark程序的运行数据和执行时间,然后利用机器学习方法建立预测程序执行时间的性能模型,最后基于性能模型通过搜索算法在Spark配置参数空间中搜索最优参数,从而实现Spark程序的性能调优。调优工具包括负载管理、执行时间预测模型选择、参数优化和优化历史记录四大模块。负载管理包括内置的测试负载和用户提交的Spark程序两部分,内置测试负载基于大数据测试集Hibench,支持不同数据量大小和不同类型的负载。执行时间预测模型选择模块前期通过机器学习方法创建模型,后期通过相似度在历史库中寻找相似负载的模型。优化参数模块通过搜索算法在对应参数空间内搜索负载的最优配置,在优化历史记录中能够查看最优配置和搜索迭代图。实验基于三个节点的集群,并配置了容器环境,在每个节点上安装了Docker引擎、在主节点上装好了Kubernetes容器调度平台,优化工具部署在主节点上。经过实验,wordcount 100G负载建立的模型准确度可以达到80%,搜索得出的最优配置相较于默认配置有5倍以上性能优化。
其他文献
伴随中国医药收购市场不断回暖,海外收购已成为公司迅速发展最具代表性的渠道之一。由于医药行业是典型的“轻资产”行业,跨境并购成为了首选。随着全球经济的快速发展以及医疗行业并购各项政策的支持,许多企业纷纷选择在海外市场拓宽领地和产业。论文选择了近期出现具有代表性的“蛇吞象”并购案例——蓝帆医疗跨境收购柏盛国际,蓝帆医疗产业价值较低,且业务同质化竞争强烈,公司迫切需要寻找新的经济社会发展增长点,以推动公
学位
电机是机电能量转换的重要装置,推动整个社会朝着自动化和智能化的方向发展。JE公司作为国内电机行业的龙头企业,面对自动化和智能化的发展趋势,JE公司采取成本领先战略,利用自动化生产线扩大生产规模,增加产能,降低电机的生产成本,最终用低价达到扩展市场份额,提升公司的核心竞争力。本文利用哈佛框架,从战略视角看JE公司的财务数据,分析JE公司的财务状况是否符合公司的发展战略,现有的战略能否推动公司的持续发
学位
随着经济全球一体化的发展,许多大中型企业为了适应市场需求,应对激烈的市场竞争,选择转变企业发展方向,积极投入业财转型工作。业财融合的有效开展能够加强企业流程管理,增强企业风险管控能力,完善企业自身经营,提升企业市场竞争力。论文采用理论与实践相结合的方式,通过对A石油化工销售有限公司的实地调研,形成业财融合初期优化方案。论文首先对企业的基本概况、组织架构、经营模式、业财工作内容以及业财融合现状进行了
学位
深圳百得公司是一家便携式家用工具和吸尘器制造商,年产超过1500万工具和500万台吸尘器,超过90%产品出口欧美。电池包(Battery Pack)生产制造工艺属于百得深圳的核心竞争力之一。随着客户需求不断上升,产能趋于紧张,公司需要提高电池包生产制造产能,满足客户需求。改善首次通过率不仅改善产品质量,同时可以有效提高电池包生产产能。本文以深圳百得公司为对象展开研究。首先,建立涵盖各相关部门的改善
学位
近年来,房地产宏观调控持续推进、技术飞速发展、消费观念逐渐转变,建筑装饰行业面临日渐激烈的市场竞争,企业生存压力空前巨大。在市场产品同质化严重、自身资金实力弱且技术水平低的情况下,民营中小企业纷纷面临生存和发展的问题。CZMY装饰材料公司是一家销售建材产品的中小型民营企业,在江苏常州经营了将近30年,发展后劲已明显不足。为避免淘汰风险、稳中求进,公司必须进行战略调整。本文运用企业战略管理的相关理论
学位
大数据时代的来临积累了大量的数据,如何从如此规模大、维度高且存在冗余特征与噪音的数据集中得到有用的信息并形成知识,使其转化为一定的经济效益或社会效益,成为了数据挖掘和机器学习领域的重要研究内容。对高维度的数据进行分析,首先需要对数据进行降维操作,特征选择和特征提取是常用的两种方式。特征提取采用变换或映射得到新特征,特征选择则是对最有效的特征进行筛选。对现有的特征选择算法进行研究之后,提出了一种新的
学位
近年来随着计算机科学技术在医学影像领域的应用不断深入,数字医学影像技术成为近年研究的热点,数字医学影像技术的进步帮助医务人员更好的对人体组织进行分析。同时近年虚拟现实技术(VR)也是成为热门技术,它改变了人机交互的方式,且它具有超强仿真性,交互时获得的反馈更加真实。获取医学影像数据需要用到一些医学仪器和技术,其中PET是一种比较先进的核医学领域的临床检查影像技术,借助医学影像技术可以将PET重建数
学位
近些年来,上市公司迎来了并购热潮,而伴随着并购热潮而来的公司商誉的迅猛增长,则使得专家学者和社会各界对于不断膨胀的商誉泡沫产生了关注和思考。若并购溢价过高,则很可能会带来巨大的减值风险。而在其中,部分上市公司通过高溢价所收购的资产,其本身在并购过程中就可能就存在着包装业绩的嫌疑。在这时一旦承诺的业绩无法兑现,就将计提较大数额的商誉减值,这样的结果就极有可能使企业当期发生亏损。同时,基于我国现行的会
学位
多年来,我国汽车销量一直领跑全球。但随着市场的不断扩大,车主人群的迭代,以及造车新势力的冲击,使得汽车产品的多样性、个性化需求的增加,消费者对产品质量的要求也越来越高,因此如何通过管理手段来降低汽车部件新产品开发过程中质量的风险、保证产品质量就成为了相关管理人员必须要研究的问题。汽车部件产品开发是一项复杂的系统工程,其质量管理包括质量策划、质量控制、质量改进等。DL公司作为国内汽车研究院的典型代表
学位
随着中国宏观经济进入新常态,国家对汽车产业的政策从过去的直接拉动转为鼓励与规范,并在新能源汽车方面持续发力;5G、车联网技术、移动互联技术等新兴信息技术正在推动汽车行业营销模式的不断变革;互联网经济、共享经济等改变着人们的日常生活,也是新一代“互联网原住民”对购车、用车产生了新的需求;新冠疫情的常态化、复杂化,中美关系的日趋紧张,使世界地缘政治形势风云诡谲。上述种种原因相互交错,使中国汽车市场正在
学位