面向成本的Spark性能智能动态调优方法研究

被引量 : 0次 | 上传用户:qqqqq770627
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Spark作为一款在分布式集群上执行大数据处理与分析的开源框架,凭借高速、通用性强、API友好等优势在业内得到了广泛的应用。但研究发现Spark在实际使用中仍然暴露出了一些问题。首先Spark具有复杂的参数配置,经验不足的用户可能难以对参数执行手动调优,Spark作业因此无法展现其最优性能表现。其次Spark SQL缓存实现也有待进一步优化:一是没有提供自动化缓存机制,无法有效地复用数据以减少重复计算;二是动态资源分配机制下executor的释放会导致缓存数据的丢失,多查询场景下可能引入重计算开销。为了进一步提升Spark性能,本文针对上述问题开展深入研究工作,主要有以下工作成果:(1)针对参数配置问题,提出了离线与在线相结合的参数智能调优方法。离线模块基于机器学习方法构建性能预测模型,在作业运行前使用启发式算法执行成本最小的最优参数搜索。在线模块使用一种轻量级、反馈式的实时调节方式,通过在Hadoop YARN中集成监视器与调节器实现作业的监控与参数运行时动态调优。本文基于离线与在线相结合的思想,设计了将两个模块融合使用,根据系统实际情况动态调整优化方案的参数智能调优方法。该方法既解决了“冷启动”问题,还增强了系统的监控与实时调优能力,具备较强的实际应用性。(2)为了优化Spark SQL缓存复用,提出了基于成本模型和马尔可夫链的缓存动态优化方法。本文首先设计了基于查询计划树的成本模型,将其应用于评估不同计划的执行成本,实现有价值数据集的自适应缓存。随后构建了用于预测查询闲置期持续时间变化趋势的马尔可夫链模型,用于指导决策executor释放的合理时机。基于两个模型,本文设计了 Spark SQL缓存动态优化方法,该方法在运行期间对缓存操作的实施以及executor的释放执行动态调优,优化缓存数据在一条查询内部以及多条查询之间的复用,多角度地提升查询性能。本文通过搭建集群,设计实验证明了所提方法在提升作业性能、缩短查询响应时间上具有良好的效果,具备较强的可行性与有效性。
其他文献
我国现制茶饮料已经进入了新时代。由于入行门槛低,产品利润高,大量现制茶饮料品牌如雨后春笋般涌现。如今的新式茶饮市场仍然具有较大的发展空间。为促进新茶饮品牌长期健康发展,本文利用市场分析模型,对新式茶饮行业的现状进行分析,并以喜茶为例,研究该企业的经营模式和营销策略,为新茶饮品牌提供可借鉴的发展策略和创新思路,帮助新茶饮品牌有效应对复杂多变的市场环境,提升品牌核心竞争力,获取更高的市场占有率。
期刊
随着可再生能源在电网中的渗透率逐渐升高,电力系统面临更大的波动性及稳定运行的挑战,同时智能电网的建设是目前电力系统建设的新方向,因此需求响应项目的实施对电力系统具有重要价值,而需求响应项目的实施中中小型用户的参与是用户侧资源利用的重要方向。负荷聚合商是目前电力市场中一种新型的市场参与者,其能整合并给予中小型用户参与需求响应项目及电力市场的能力,实现用户及系统间的互动,是目前电力市场化改革背景下电力
学位
<正>党的二十大报告提出,加强城市社区党建工作,推进以党建引领基层治理。这一重要论述为新时代基层治理指明了方向,对于探索党建引领下的多元共治体系,形成社区治理合力,切实将矛盾纠纷化解在基层具有重要意义。基层治理是国家治理的基石,基层稳,则大局稳;基层安,则社会安。物业管理作为与社区居民密切相关的关键小事,其管理水平成为影响社区治理效能的重要因素,因此,在党建引领社区治理的大背景下,如何将其真正纳入
期刊
政府采购是国家公共财政体制改革重要内容之一,是政府采购行为法制化管理的有效体现。随着政府购买能力不断增加,在中央财政部门监督下开展公开招标采购货物、工程、劳务等物资,不仅可以有效降低采购成本,还能刺激市场经济健康发展,结合市场竞争机制与财政管理制度,实现并促进政府部门各项服务工作顺利、高效开展。当前,互联网大背景下,部分地方政府在采购工作方面仍旧沿用传统方式,各种成本高、速度慢、质量无保证的事情时
期刊
本文对国家标准GB/T 17592—2011的还原条件(采用70℃保温30 min后加入保险粉还原30 min)进行了改进。将偶氮染料的还原温度由70℃改为100℃,在煮沸的条件下,在等体积水或缓冲溶液中进行还原。通过多组阳性样品的试验表明,芳香胺的检出量均高于采用国标(GB/T 17592—2011)中的还原方法所得到的检出量。将煮沸时间从30min缩短到10min,芳香胺的检出量仍然高于采用国
期刊
异步电机无速度传感器变频调速系统主要包括坐标变换模块、空间矢量脉宽调制模块、电流PI调节器、速度PI调节器、转子速度估算模块以及磁链观测模块。研究过程中针对以上各个模块的功能、特点提出设计方案,并利用MATLAB软件对设计结果进行了仿真实验。结果表明:该系统能够达到设计预期,转速估算的误差仅为2r/min,足以满足工程化应用。
期刊
将变频调速技术用于煤矿机械行业,可有效减少机械设备的能耗,保证安全可靠运行。本文就煤矿机电领域中提升系统、通风机变频调速技术的应用经验展开论述,为变频调速技术科学应用提供技术保证。
期刊
在教学中发现,学生对动生电动势公式存在片面甚至错误的理解。本文分别从普遍与特殊、整体与部分、现象与本质三个角度对其成因进行辩证分析,以帮助学生形成正确认识。
期刊
现代医院管理制度是中国特色基本医疗卫生制度的重要组成部分,医院绩效管理作为现代医院管理的重要理念和管理工具,对医院的高质量发展有着积极的作用,是保证医院战略落地的有效方法,也是强化医院质量管理和技术提升的有效载体。绩效计划是绩效管理中最重要也是容易被忽略的一个环节,做好绩效计划是做好绩效管理的第一步,关系绩效管理的成败。本文从绩效计划着手,分析绩效计划环节存在的问题,优化绩效计划的目标设立,旨在引
期刊
报纸