基于运行时统计数据采集的Spark SQL查询优化研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:shenqian1015
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代,各行各业与互联网的紧密结合产生了海量的业务数据,通过分析这些业务数据可以为公司制定更好的运营策略,从而提升公司的盈利能力。Hadoop MapReduce系统的出现简化了对海量数据的分析,其被大量公司和机构广泛应用于业务数据分析工作。然而Hadoop MapReduce采用磁盘来存储计算的中间结果,因此计算效率较低,而Spark分布式计算引擎采用内存来存储计算的中间结果,显著地提高了数据分析任务的执行速度。为了进一步简化数据分析工作,研究人员在Hadoop MapReduce系统上研发了Hive数据仓库;在Spark之上构建了Spark SQL系统。相对于早期的工具使用代码描述计算任务,这些工具使用SQL描述数据分析任务,使其可以根据查询优化理论进行优化,进一步提升了执行的效率。但是目前Spark SQL的查询优化功能仍然存在以下不足:1)需要操作者显式地通过统计信息收集命令收集统计信息,在缺乏统计信息时无优化,而使用者通常不了解查询优化理论,也不了解如何有效地收集统计信息。2)收集的统计信息不够准确,优化效果不佳。针对以上问题,本文提出了一个在运行时收集统计信息并对查询进行自适应优化的算法,实现了在不需要前置统计信息时对查询进行优化。其包含以下三个部分的内容:1)BFP(Bloom Filter Prune)Join算法,在连接操作执行之前使用布隆过滤器裁剪不满足连接条件的数据,并按照裁剪的方式不同分为单侧裁剪和双侧裁剪。2)采用AMS Sketch和布隆过滤器对连接的中间关系基数进行更加精确的估计。3)提出了一个基于图的连接计划生成算法,根据查询语句调度执行统计信息收集任务,接下来按照统计信息自适应地调整查询的执行计划。文章接下来对本文提出的运行时查询优化算法进行了测试,实验表明:在不考虑连接顺序的情况下,BFP算法通过对连接输入进行裁剪产生的优化效果最高达到了12%,在未成功裁剪数据的时候额外时间开销没有超过7%。连接计划生成算法在没有预先收集统计信息的情况下,在实验中所有的18次查询里,有14次都产生了最优的连接计划,优化效果最高达到了31%,统计信息采集的时间开销不超过执行时间的5%。
其他文献
由于荧光探针可以简单、快速和高效地对分析物进行实时定位、进行检测分析,因此,荧光探针在生物、化学的分析检测中具有独特的优势,尤其在生物组织医学研究领域,成为了科研人员高效地研究分析的工具。与单光子荧光探针相比,双光子(TP)荧光探针凭借其高空间分辨率、深层组织成像和准确定位等优势成为目前荧光探针领域的潮流,同时规避了单光子荧光探针易产生的光损伤、光干扰和光漂白等劣势。因此,双光子荧光探针的研究具有
随着我国经济的快速发展,收入差距也在扩大。个人所得税作为能有效调节收入分配的税种,研究其收入再分配效应十分必要。而在个人所得税改革中,往往会涉及费用扣除标准的变化。那么费用扣除标准的提高对于个人所得税再分配效应及税收累进性是否起到了正向作用,与平均税率的改变相比较,其对再分配效应作用是否更强,这些问题都值得去讨论研究,能对今后的个人所得税改革方向提供参考。本文从理论角度上分析个人所得税调节收入分配
十九大首次提出乡村振兴,要求加快建立现代农业经营体系,推进新型农业经营主体培育,千方百计推进农业增效、农民增收、农村增绿。崇州市作为国家重要的粮油生产基地,通过农场主的视角研究粮食种植类家庭农场政策需求有助于更好地了解政策现状和农场发展需要。本文通过对崇州市17个乡镇的实地走访调研,获得了117个有效样本,经过优先序排序可知财政补贴扶持需求、基础设施扶持需求、技术支持需求、金融信贷扶持需求是家庭农
函数逼近论是函数论的重要分支之一,其本质是寻找函数的近似表示.函数逼近论和泛函分析,计算数学等许多其他学科有着深刻的联系,在当今的理论研究和实际应用中有着广泛的应用
本研究选用3个线粒体基因(COI,ND5和Cytb)和1个核基因片段(EF-1a),对黑弄蝶所有分布区的27个地理种群110个样本进行测序及分析,运用“谱系地理学”的原理和方法,检测其在现在分布
中国经济快速发展的同时面临巨大的资源环境压力,速度规模型粗放增长转型质量效益型集约增长迫在眉睫。产业生态系统是可持续发展在产业层面的具体体现,关注产业生态系统内部的关键结构组分与地区经济发展间的关系,为经济可持续发展、产业转型升级提供新的发展思路。本文从产业生态系统视角入手,借鉴生态学关键种研究思想及方法,通过研究产业生态系统中的关键种行业对地区全要素生产率的影响机制,分析关键种行业带动产业转型升
视频合成孔径雷达(Video Synthetic Aperture Radar,Video SAR)是一种新型SAR成像模式,因其具有高帧率成像的特点,可以有效解决传统SAR在地面运动目标检测(Ground Moving Tar
随着计算机视觉的不断发展,行人检测技术也越来越受到人们关注,在实际生活中的应用也越来越广泛。目前,计算机硬件的性能不断提升,日常生活中产生的图像视频数据急剧增加,为
随着人工智能技术的快速发展,家庭服务机器人的应用越来越广泛,其中人脸识别作为家庭服务机器人的主要功能,成为了计算机视觉和机器人领域的研究热点之一。传统的人脸识别算法局限于实验室环境中,现实环境中的人脸图片和服务机器人拍摄的人脸图片会受到角度、光线、分辨率、形态等影响,一定程度上影响人脸识别的准确率。近年来,随着深度学习在图像识别、视频识别等领域取得巨大的进展,研究基于深度学习的人脸识别技术在家庭服
体育竞赛中,持续竞争优势对参赛队的可持续性发展具有非常重要的作用。拥有持续竞争优势的参赛队可以获得更多的投入,能更好的进行梯队建设,往往在下次比赛中的夺牌呼声更高;失去持续竞争优势的参赛队或将面临更大的外部问责,直至破坏运动队的可持续发展。本文将持续竞争优势理论运用于全国大运会项目绩效研究之中,比较分析主观评分类和客观类项目竞争优势的持续性差异,初步探讨影响项目持续竞争优势的因素及原因。本文按照选