列存储数据仓库的位图索引研究与实现

来源 :东华大学 | 被引量 : 3次 | 上传用户:serinol
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据的爆炸性增长,数据库领域的研究热点逐渐从事务型数据库转移到海量数据分析型数据库。数据仓库作为当今热门的数据分析技术,为企业决策提供有力支持的同时,也越来越引起人们的关注。其中海量数据的高效存储和即席查询是数据仓库研究的核心课题。目前,数据仓库系统主要通过以下途径来提高海量数据的查询性能,一是改变数据的存储结构使其更好地满足上层查询;二是建立高效的索引提高数检索的效率;其三是通过查询优化技术来优化查询语句,如启发式优化、基于代价的优化等。大量的理论研究和实际应用验证了列存储系统在分析型应用方面的查询性能远高于行存储系统。数据仓库管理系统(Data Warehouse Management System, DWMS)主要用于海量数据的查询分析,因而采用列存储技术更有利于即席查询。索引技术是提升海量数据查询效率的关键技术之一,在列存储DWMS中显得尤为重要。本文立足于列存储模型的数据仓库管理系统DWMS,主要研究了列存储数据仓库中的位图索引技术。通过对位图索引及其压缩技术的研究,提出了一种高效的位向量压缩技术,并实现了DWMS中的位图索引技术。本文对位图索引特别是对位向量压缩技术进行了深入研究,针对现有位向量压缩技术的缺陷,提出了一种自适应划分字对齐的混合位向量压缩技术。该技术不仅可以减少位图索引所占的存储空间,同时也充分地考虑了CPU的运算特征。基于提出的位向量压缩方法,实现了在压缩数据上直接进行按位逻辑运算,避免了解压缩所产生的额外代价。对查询处理过程中产生的大量可复用的位置向量,采用本文提出的方法进行压缩,可以节省中间结果的大小,进而可高效地复用中间结果,提高查询处理的性能。最后,使用本文提出的方法,我们在DWMS原型系统中实现了位图索引技术,并在数据仓库基准数据集SSB上进行测试,验证了该方法的有效性。
其他文献
在这样一个信息爆炸以及互联网飞速发展的时代,云计算和云存储极有可能成为未来最主要的计算和存储模型和服务模式但目前云存储服务的应用,特别是在企业中的应用,还比较有限其中
随机数序列在科学研究和工程技术等方面得到了广泛的应用,其作用越来越重要。现场可编程门阵列(Field Programmable Gate Array, FPGA)技术为集成随机数发生器提供了条件。现
对大规模无线传感网络的研究是一项具有挑战性的课题。其中对已经部署运行的大规模传感网络进行软件更新就是其中一项巨大的挑战。现实的传感网络应用通常需要部署成百上千个
智能交通系统(ITS)是以提高道路交通系统安全性,高效性为目标,采用图像处理、人工智能、嵌入式、传感器和模式识别等多种技术手段,解决交通拥堵、交通事故等问题。其中,车辆检测
随着人们对信息安全和可靠性要求的日益提高,身份识别成为信息安全领域中一个很重要的研究课题。然而,传统的证件、口令、密码等身份识别的技术存在易被复制、窃取、遗忘等缺陷
蛋白质相互作用热点预测是功能蛋白质组学中主要研究内容之一。Clackson观察hGH与hGHbp结合时发现极少数残基释放大量的能量,由此引起研究者兴趣。之后研究者将这些极少数的发
如今,数据量的快速增长带领我们进入了大数据时代。同时,大数据类型多样,如社交数据、企业数据、传感器数据及机器生成数据等。因此,我们迫切地需要快速及有效的数据挖掘方法来利
复杂目标的电磁散射和辐射特性的计算仿真具有很高的应用价值。在电磁计算的工程应用中,这些目标的模型网格质量对于电磁计算而言非常重要,决定着相应电磁计算算法的适应性、
随着车联网的发展,车辆定位技术的研究受到了大量国内外研究人员的关注。定位技术不仅影响到行驶车辆的安全,对车联网的发展也起着决定性作用。目前大部分车辆定位方案是在全球
非线性系统回归分析中的参数估计,是指在实际问题中非线性系统的形式己知,但其中参数未知,即已知随机变量的一组样本值,希望通过样本值来估计变量分布中的参数值。生长模型是