论文部分内容阅读
随着数据的爆炸性增长,数据库领域的研究热点逐渐从事务型数据库转移到海量数据分析型数据库。数据仓库作为当今热门的数据分析技术,为企业决策提供有力支持的同时,也越来越引起人们的关注。其中海量数据的高效存储和即席查询是数据仓库研究的核心课题。目前,数据仓库系统主要通过以下途径来提高海量数据的查询性能,一是改变数据的存储结构使其更好地满足上层查询;二是建立高效的索引提高数检索的效率;其三是通过查询优化技术来优化查询语句,如启发式优化、基于代价的优化等。大量的理论研究和实际应用验证了列存储系统在分析型应用方面的查询性能远高于行存储系统。数据仓库管理系统(Data Warehouse Management System, DWMS)主要用于海量数据的查询分析,因而采用列存储技术更有利于即席查询。索引技术是提升海量数据查询效率的关键技术之一,在列存储DWMS中显得尤为重要。本文立足于列存储模型的数据仓库管理系统DWMS,主要研究了列存储数据仓库中的位图索引技术。通过对位图索引及其压缩技术的研究,提出了一种高效的位向量压缩技术,并实现了DWMS中的位图索引技术。本文对位图索引特别是对位向量压缩技术进行了深入研究,针对现有位向量压缩技术的缺陷,提出了一种自适应划分字对齐的混合位向量压缩技术。该技术不仅可以减少位图索引所占的存储空间,同时也充分地考虑了CPU的运算特征。基于提出的位向量压缩方法,实现了在压缩数据上直接进行按位逻辑运算,避免了解压缩所产生的额外代价。对查询处理过程中产生的大量可复用的位置向量,采用本文提出的方法进行压缩,可以节省中间结果的大小,进而可高效地复用中间结果,提高查询处理的性能。最后,使用本文提出的方法,我们在DWMS原型系统中实现了位图索引技术,并在数据仓库基准数据集SSB上进行测试,验证了该方法的有效性。