基于超图划分的大数据实时查询优化研究与实现

来源 :浙江大学 | 被引量 : 0次 | 上传用户:laohe5201314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Impala是为满足Big Query实时性需求而设计开发的大数据实时查询系统,其采用分布式查询引擎,通过高度的并行化、数据本地化策略,从而降低查询延迟。Impala提供了一些查询优化技术,但不支持连接顺序优化,同时由于目前基于DPhyp(Dynamic Programming Hypergraphs,DPhyp)优化SQL查询的算法存在产生指数运行时间、传统代价模型难以直接适用于Impala大数据实时查询系统等问题,故本文提出基于超图划分的Impala查询优化方法。首先,构建满足左线性树的搜索策略,缩小整个执行计划的搜索空间;接着,综合考虑数据移动代价及哈希连接算法运行等关键因素,结合提出的代价模型,生成最佳的连接顺序;然后,在生成的连接顺序基础上构建执行计划,执行后返回最终查询结果。最后,深入考虑列式文件读取的特性,在本文提出的代价模型基础之上改进现有表基数的估算方法,进而提高代价估计的准确性。大量实验结果表明,本文提出的基于超图划分的查询优化算法与DPhyp算法生成的连接顺序一致,且前者算法运行效率比后者要快近一倍;另外,基于超图划分的查询优化算法结合提出的代价模型,其比原始的Impala查询响应时间平均要少3~5倍;最后,结合本文提出的修正估算方法能够有效提高代价估计的准确性。
其他文献
随着面向服务计算的快速发展,WebService技术在近年来受到越来越多的关注并且在学术界和工业界取得了巨大的成功。服务推荐是面向服务计算中一个非常重要的研究方面,在帮助用户
P2P技术让网络中所有的客户端都能提供资源,包括带宽、存储空间和计算能力等,已经在协同工作、分布式信息或资源共享、大规模并行计算等方面显示出独特优势,并成为互联网新的
由于以处理器、内存、外存等硬件为支撑的计算机数据处理能力和计算机网络的飞速发展,起源于单处理器和高I/O延迟的计算机时代的数据库以及数据库管理系统在容量、负载以及性
如何生成高精度真实感三维人脸动画是计算机图形学和计算机视觉领域的一个重点研究课题。当前三维人脸动画建模技术应用领域十分广阔,包括影视制作、人脸识别、虚拟现实以及游
面向对象编程思想的本意是将程序员的心智模型(Mental Model)与用户的心智模型统一于代码之中,为了人机之间的交互顺畅,程序员的心智模型与用户的心智模型必须彼此吻合,形成
无线传感器网络(Wireless Sensor Networks, WSNs)通常是指由数目众多的传感器节点大规模布局而形成的网络系统,节点利用无线通讯、多跳和自组织的方式把收集的信息传递到基站。
物联网(InternetofThing,IoT)在物流、医疗、交通领域都被广泛的利用。物联网技术对人们的生活习惯、企业和社会的发展都有深远的影响,实现了人与人、物与物、人与物的统一。由
数据库对象(表或者索引)的空间管理是数据库系统的关键问题,当数据库进行插入时,需要在对象的物理空间中寻找一个可用的页面,这个查找过程既要保证高性能,又要尽可能利用好有限的物
作为与日常生活息息相关的基础设施,办公楼、购物中心、地铁站、机场、医院等大型建筑物的内部结构日益复杂,使得人们在其中经常迷路或很难快速找到目的地,而对有视力障碍的人来
在金融软件开发领域,随着业务不断发展,企业陆续开发了多个应用系统,每个应用系统具有各自独立的运行环境和数据存储方式,从而产生了不同的数据源。创建数据集成平台可以使得金融