基于数据特性的Spark任务性能优化

来源 :计算机应用与软件 | 被引量 : 0次 | 上传用户:youngyyw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
新一代的分布式数据处理框架大大提升了数据处理任务的效率。然而,由于不同数据处理任务需要处理的数据的特性各不相同,因此难以找到一种统一的方法来优化数据处理任务的性能。针对不同的数据集,需要分析其相应的数据特性,才能充分利用内存和计算资源,优化任务执行效率。研究数据倾斜度这一数据特性,提出一种数据倾斜度的量化方法,基于分布式处理框架Spark,通过结合数据采样分析和源代码语义分析的方法,自动判断当前所处理数据集的数据倾斜度与处理代码的适合程度,并基于判断结果提出相应的代码自动优化方案,从而提升任务的运行效率。
其他文献
槭树由于其在秋季具有较为鲜艳的色彩,并且树冠整洁,被广泛应用在公园以及小区之中,不仅能够作为园林造景,还可以当做行道树,受到人们的喜爱.本文对于槭树种植与管理技术进行
习近平总书记强调,消除贫困、改善民生、逐步实现共同富裕,是社会主义的本质要求,是中国共产党的重要使命。自党的十八大召开以来,在党中央的领导下,大力开展精准扶贫工作,设
电子商务的快速发展给我们的日常生活带来了无比的便捷,但是电子商务活动中的安全仍是令人担忧的问题.在介绍电子商务安全系统框架的基础上,分析了SSL协议本身的层次结构和工
随着人们生活水平的不断提高,畜牧业提供的肉蛋奶等产品成为人们餐桌上不可或缺的组成,是提高国民身体素质的重要营养来源.近数十年来,我国逐步发展现代化畜牧业,提高畜牧业
甲午战后,中国国内要求改革变法的呼声越来越高,西方传教士在斯时中国的政治改革中充当了重要角色:他们通过广学会传播西学,推动了维新思想的兴起和发展;他们结交朝中权贵和
众所周知,林业在农业经济中占有十分重要的地位,林业的发展也有效推动了我国环保工程的进步.榆树身为人工造林中首选的乡土树种,具有根系发达、耐低温能力强等特点.根据相关
随着时代的变迁,公路事业得到了长足发展,新型筑路材料在发展过程中不断涌现。本文对SEAM改性沥青混合料的材料组成、配合比设计及施工工艺进行了探讨。
中阶梯光栅光谱仪采用中阶梯光栅与棱镜交叉色散结构,在像面形成二维光谱。影响中阶梯光栅光谱仪分辨率因素较多。分析了针孔直径、光栅参数、棱镜参数、CCD像素尺寸和像差对
【正】 三月十六日下午,中国价格学会秘书长王振之介绍了价格改革中若干理论问题讨论的情况。一、如何在保持物价基本稳定的前提下,有步骤地改革价格体系和价格管理办法。
现代桥梁结构朝着大跨度、高技术的方向迈进,而桥梁的施工技术也朝着大型化、机械化、精确化和快速化方向发展。结合实际桥墩工程的施工,分析某特定环境下产生的深水基础施工