列存储数据仓库中的查询重写关键技术的研究与实现

来源 :东华大学 | 被引量 : 1次 | 上传用户:timhero
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据仓库广泛应用带来的良好影响,数据仓库技术得到了迅猛的发展。数据仓库中最常用、最重要的查询语句的执行效率直接影响了数据仓库的性能,在查询处理中将查询语句重写成另一种高效的内部表示,帮助查询优化器获得更好的执行计划一直是学术界研究的热点。对于数据仓库是面向分析型、以读操作为主的特点,大量的文献和实践证明在列存储体系中,仅需读取查询所需要的列数据,避免了将其他不相关的列的数据同时读入内存的情况,这样列存储就有很大的性能优势。这也使得在列存储背景下探索适宜的查询重写技术成为一种必然。首先,论文详细阐述了本课题的研究背景和相关技术的研究现状,突出了在列存储背景下对查询重写进行深入研究的必要性。然后,论文对本课题相关的重要知识点做了必要介绍,其中包括数据仓库、列存储的优势、列存储数据仓库系统DWMS、查询处理、传统的优化策略等等。其次,论文深入分析了列存储系统的特性,基于在查询重写中与行存储的本质不同,提出了列存储特有的基本优化策略和重写规则,并分别在group by聚集操作、子查询、索引连接方面进行了深入的讨论分析,提出了合适的解决方法,进一步充实了列存储中查询重写的关键技术。接着,论文对DWMS系统实现过程中涉及到的基本数据结构作了介绍,将基于规则优化的查询重写模块分为重写普通where查询树、重写含group by的查询树、重写有子查询的查询树三部分实现,并分别详细讨论了一些重要实现方法。最后,论文以列存储数据仓库管理系统DWMS3.0为平台,采用SSB数据集,进行实验论证,结果表明:本文提出的提出优化策略、重写规则、双层左深树结构能有效减少候选计划的规模,排除大量不可能生成最优计划的计划,使得查询处理代价和执行时间大大减小。
其他文献
信息时代的来临与网络商务的迅速发展,人们的网络商务行为变得越来越频繁,数据挖掘已经发展成为网络中的Web数据挖掘,Web数据挖掘的应运而生标志着人类商业的巨大变革。一方面,We
无线传感器网络(Wireless Sensor Network,WSN)是一种集数据采集、处理、通信于一体的智能传感器网络系统。目前,在许多领域如军事、危险区域远程监控、智能家居、医疗护理、环
随着计算机图形学和三维动画游戏的不断发展,在三维虚拟环境中虚拟相机的控制已经变成了一个重要的研究课题,具有广阔的应用前景。然而目前国内外面向虚拟人动画和虚拟人群动画
在计算机和电子技术飞速发展的今天随着国内机车电子化水平的快速提高,特别是计算机技术在机车仪表中的广泛应用,机车仪表逐渐走出了传统的电气式仪表的模式,正向数字化和智能化
在过去的30年,用于城市地面交通工具中自动驾驶技术的开发已经得到了飞速的发展。目前,现代自主驾驶车辆已具备一定感知车辆周围环境的能力,比如根椐分类所分析对象的类型并
时间序列数据广泛存在于经济金融、气象科学等领域,时间序列的相似性研究具有深刻的理论意义与重要的实际应用价值。时间序列数据挖掘研究中许多算法都是基于某种相似性度量
随着网络与多媒体技术的快速发展,图像数据发生爆炸性增长,基于内容的数字图像操作越来越多,给人们对图像的管理带来巨大挑战。面对海量图像数据,传统依靠人工操作对图像进行
概念格理论,也叫形式概念分析(FCA),是一种有效的知识表示与知识发现的工具,已被成功应用于知识工程、机器学习、信息检索、数据挖掘、语义Web、软件工程等许多领域。要使用概念
随着可靠组播通信业务需求的增加,组播作为最有效的组通信技术,其可靠性成为当前研究的热点。由于传统的IP组播技术至今无法在Internet中广泛应用,并且各种IP可靠组播协也存
高质量图像输入输出设备的出现,使得票据的伪造变得更加容易,这对大量发行和使用的票据来说无疑是个巨大冲击。利用数字水印技术在票据纸张上实现防伪,是票据防伪的一个发展方向