Spark SQL查询执行优化技术研究

来源 :东南大学 | 被引量 : 3次 | 上传用户:parrotxu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,政府机关、企业与研究机构每天都要产生和处理的数据规模已经达到TB级乃至PB级。虽然Hadoop的出现解决了大数据在多台计算机上的可靠存储和处理问题,但是该计算框架也存在一定的问题,即运算产生的中间结果会存放在HDFS文件系统中,并且Hadoop的MapReduce工作流是由很多的MapTask和ReduceTask组成,大量的MapTask与ReduceTask之间的的交互会造成频繁的读写中间数据,因此会带来大量的磁盘读写开销。为了解决Hadoop所面临的问题,Spark技术应运而生。Spark是一种分布式的内存计算框架,并且它延续了Hadoop的MapReduce计算模型,所不同的是Spark使用了一种更快的工作流DAG(Directed Acyclic Graph),通过减少Shuffle的次数让数据更多地在内存中进行读写。但是Spark的Shuffle过程仍不可避免的把中间数据放在硬盘上进行读写,并且在Spark SQL作业流中,存在着对冗余数据进行读写的情况。本文针对目前Spark中存在的问题,对Spark SQL作业查询执行优化技术进行研究。本文深入分析了Spark SQL的工作流程,结合SQL查询的特点,在底层持久化文件系统与上层Spark核心间加入中间数据缓存层以解决对该数据的随机I/O读写开销,并且通过查询预分析模块,可以动态地调整缓存层的大小以适应不同的查询,同时针对连接操作Shuffle数据量较难计算的情况,提出了直方图法进行分析,最后缓存层分配模块为集群中的每个结点分配合适的内存。针对Spark SQL作业流中存在的输入数据和中间数据共享的情况,本文提出了基于代价的相关性合并算法,来权衡合并共享数据所带来的收益和产生的额外开销,以决定是否对这些具有相关性的作业进行合并,从而实现集群资源的高效利用,提高系统运行效率,加快查询任务的执行速度。本文在现有的Spark SQL的基础上进行改进,开发了SSO(Spark SQL Optimizer)系统,实现了上述功能。通过搭建实验平台,使用基准测试工具TPC-H生成测试数据,与现有的Spark SQL就查询性能进行分析比较。实验结果表明,改进后的SSO系统能够有效提高查询速度,减少磁盘I/O开销,充分利用集群的内存资源,具有明显的优势。
其他文献
随着经济的快速发展,人们生产、生活方式也发生了极大的改变,一味享受经济带来的便利却忽视了环境的保护,使得雾霭天气频繁出现。而图像作为人类获取和交换信息的主要来源,其
油茶(Camellia oleifera Abel.)是我国特有的优良木本油料植物,油脂主要存在于茶籽中,含量在40%-50%之间,油茶籽油富含油酸、亚油酸、多酚、生育酚和植物甾醇等活性物质;而提取油脂后产生的油茶籽粕副产物含有1 4%-20%的蛋白质。但是,油茶籽所含茶皂素限制了油茶籽油的提取利用,并且所产生的油茶籽粕多用作饲料或燃料,导致其附加值比较低。因此提高油茶籽油提油率以及油茶籽粕利用率
液晶显示制造业工厂的流水线通常分为两大类型:一是设备流水线,应用于液晶制造和模组制造的前端;二是工人流水线,应用于模组制造后端。设备流水线的一大特点是:它的产能主要
由当代美国作家威廉·斯泰伦创作的长篇小说《苏菲的选择》在1979年一经问世就吸引了无数读者,成为美国大学生的必读书目,并于1980年获美国国家图书奖。小说以南方青年作家斯汀戈的视角出发,叙述了他与女主角波兰裔奥斯维辛幸存者苏菲和犹太裔青年内森三人间的爱情悲剧与情感纠葛,并揭露了苏菲在奥斯维辛集中营的悲惨经历,从而向读者以全新的角度展示了奥斯维辛的本质,引发读者的深思与警醒。本文以文化创伤作为切入点
为了深化初中地理课堂教学改革,培养学生应对人口、资源、环境与发展问题的能力,中国于2011年颁布了《义务教育地理课程标准》。本文于课程标准颁布九年后,结合美国于2013年颁布的《下一代科学课程标准》,以湘潭市与布法罗市为例,探讨了中美初中地理教育的异同点。在比较中美两国初中地理课堂后发现,中美两国初中地理课堂教学目标基本一致,例如都注重学生对于课程知识的掌握与能力的培养。但美国初中地理课堂对于学生
住房保障,是改善民生和促进社会和谐的必然要求。由于当前我国城镇保障性住房供应体系存在很多问题,所以突破原有模式,协调保障房需求与供应,显得尤为重要。本文通过梳理我国
随着线上用户需求的增加,推荐系统应运而生。协同过滤推荐算法是推荐系统中应用最广泛的算法,但传统协同过滤推荐算法存在着数据稀疏及冷启动问题。为了解决这两个问题,研究
认知无线电技术作为未来绿色无线网络的关键技术之一,它能够通过动态频谱接入的方式,解决频谱稀缺问题,而频谱感知够识别具有特征干扰的未被充分使用的频谱,从而实现可靠且高
随着移动通信和空间定位技术的发展以及智能移动终端的普及,基于位置的服务(Location Based Services,LBS)在交通、金融、安全等诸多领域得到日益广泛的应用。LBS在给人们生
在一台电控高压共轨直喷柴油机上,研究了燃用F-T柴油和生物柴油时,不同主后喷间隔对氮氧化物、一氧化碳、总碳氢和烟度排放的影响规律;同时,考察了不同主后喷间隔条件下排气