基于成本的Spark SQL优化

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:boymy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代,挖掘海量信息中蕴含的价值,对海量信息进行快速处理成为各个行业的迫切需求。随着Spark的广泛应用,Spark SQL作为一个基于Spark的分布式查询组件,利用Spark内存计算特性,进一步提高了海量数据检索性能,并在数据清洗、数据挖掘、日志分析等领域得到广泛应用。SQL查询优化是Spark SQL的核心,Join操作作为SQL中的基本算子,在分布式查询系统中,其实现方式与执行路径,决定计算资源、内存资源、网络和磁盘I/O资源的开销,它的优化执行是影响SQL查询性能的关键。目前最新Spark SQL版本中实现了基于成本的优化策略与基于规则的优化策略,通过优化Join执行路径,提高查询效率。同时,还可以通过缓存策略,减少网络传输开销与磁盘I/O开销,提高SQL执行速度。然而,Spark SQL成本优化策略没有充分考虑Spark内存计算特性,且缓存策略单一。针对存在问题,研究Spark SQL优化策略,主要完成了如下工作:1.针对目前Spark SQL成本优化策略中没有充分考虑Spark内存计算特性的问题,对Spark SQL中Join算子的不同实现方式,给出了一种综合时空复杂度和I/O开销的成本评估模型,该成本评估模型对Spark SQL执行过程中的内存使用行为和数据溢写行为进行成本分析。并提出一种物理计划生成策略和最优物理计划选择策略。通过与最新版本Spark SQL的成本模型进行实验对比,结果表明,论文提出的策略可以在提高SQL查询效率的同时提高系统资源利用率。2.针对Spark SQL缓存策略中无法自动缓存有价值数据,从而导致缓存利用率不高的问题,根据Spark SQL中使用内存列式存储作为缓存的特性,对缓存机制中缓存读写行为进行成本分析,提出了一种基于成本的自动缓存策略。通过与默认缓存策略进行实验对比,结果表明,使用该策略在TPC-DS数据集下,可以有效识别具有缓存价值的数据表,提高SQL查询性能和系统资源利用率。研究工作表明,结合Spark SQL内存计算特性,研究基于成本评估模型的查询优化策略,可以在提高系统资源利用率的同时有效提升Spark SQL查询性能。
其他文献
目的:探讨青海地区藏、汉族心房颤动患者与VKORC1基因1639位点及CYP2C9基因多态性的关系。方法:收集青海地区藏族房颤患者50例,汉族房颤患者50例;同时,在同一时间段随机纳入
过度使用抗生素已成为全球严重的生态问题。近年来,国内外已经报道了关于针铁矿吸附各种抗生素的研究。但是,随着越来越多的人工纳米颗粒应用于各个领域,它们已经在环境中被检出,特别是纳米银颗粒和纳米二氧化钛颗粒。抗生素和人工纳米颗粒能够在环境中共存,例如医疗废水、污水处理厂污水及污泥中。因此,有必要研究共存的纳米颗粒和抗生素进入土壤环境时,在针铁矿上的吸附行为。本实验选择柠檬酸盐包覆的纳米银颗粒(Citr
[目 的]通过探讨FXS模型小鼠社交行为异常的分子机制,加深对FXS病理机制的认识。通过AAV介导FMRP在Fmr1 KO小鼠大脑神经元的获得性再表达,为FXS的基因疗法提供参考和依据。[
文景转换是通过计算机将客观世界认知场景的自然语言文本描述自动转换成其三维或者动画形态的可视化表达过程,其在人工智能、动画、教育以及军事等领域有着广泛的应用前景。
本文,我们着重研究了马尔可夫过程的一个子类,即具有多项式回归的马尔可夫过程(MPR过程)的一般特性.给出了正交多项式鞅族{Mn-(Xt,t)}的定义,它满足三项递推式,XtMn(t)=αn+1(t)Mn+1(t)+βn(t)Mn(t)+γn-1(t)Mn-1(t).在此条件下,得到了{M-(Xt,t)}的一般性质.关于线束的研究,R.Mansuy和M.Yor曾给出R+上的定义.在此基础上,我们严格
随着社会经济的高速发展,能源的大量消耗带来了各种污染问题,影响着人类的健康,制约着社会进步。燃料电池作为一种绿色环保的高效能源装置受到人们的关注。然而,燃料电池缓慢的阴极氧还原反应(ORR)是制约燃料电池广泛应用的重要因素,目前最常见的催化剂是铂基催化剂,但是它成本高昂,资源有限,易因甲醇中毒而影响催化活性。因此,开发稳定性好、价格低廉、催化性能优的阴极氧还原反应催化剂,是实现燃料电池商业应用的有
日本囊对虾(Marsupenaeus japonicus)是最具养殖价值的对虾品种之一。高氨氮、低pH是影响其养殖效果的重要环境因子,由于工厂化养殖模式下饵料及排泄物的积累、人类活动及气
分数阶对流扩散方程是一类重要的数学模型,它常用于描述反常扩散的或非指数松弛的复杂系统中的传输过程.本文为一类时间多项分数阶对流扩散方程构造了一种时空有限元全离散格式,并提出了一种高效的自适应代数多重网格(AMG)法.首先,在时间和空间维度上均采用线性有限元方法,所得全离散格式的系数矩阵为并证明:(1)AAhτn是M矩阵,且当空间步长h≤1/7时,其行和具有正下界;(2)当β不小于某个正常数时,Ah
小细胞肺癌(SCLC)是支气管黏膜上特殊类型的肺癌。SCLC细胞具有倍增速度快、恶性程度高、早期转移等特点,这导致SCLC临床治愈率较低。目前常规化疗或放疗对SCLC疗效有限,仍缺
墨西哥湾扇贝(Argopecten irradians concentricus)自引入北部湾推广养殖以来已有二十多年,已形成规模化产业链,是当地重要的经济贝类,但由于累代小群体养殖,墨西哥湾扇贝种