论文部分内容阅读
索引和物化视图是应用在数据仓库中用来加速数据查询的物理结构,本文根据物化视图和索引的特点,提出了把索引和物化视图耦合选择的优化方法,以实现查询速率的优化和存储空间的高效共享,其中候选索引和物化视图的选择是一个数据挖掘的过程,本文利用成本模型对耦合情况进行评估,并通过实验分析表明耦合方案可以极大提高单一索引查询或物化视图的性能。主要工作如下:论文首先介绍了数据仓库的概念及其性能优化的研究,包括数据仓库的定义、特征、数据仓库性能优化的影响因素和几种优化方法,如索引、物化视图。然后,分别介绍数据仓库中的常用索引技术和物化视图技术的相关理论。包括索引的定义,位图索引、连接索引和B树索引的理论及其优化应用;物化视图的定义,以及相关的选择算法,并针对常用的遗传算法、贪心算法和退火算法进行分析。基于上述理论,论文详细论述了一种新的数据仓库性能优化思路,即以数据挖掘为基础的数据仓库性能优化方法。阐述了优化方法的步骤和候选对象的选择算法,以数据挖掘技术来解决候选索引和候选物化视图的选择问题,以及用成本模型来衡量索引和物化视图性能。最后,论文主要论述了索引和物化视图的耦合方法,其中包括耦合方法的候选对象选择,数据结构,如何在物化视图上建立索引,通过成本模型来衡量视图被物化和被索引的好处,并且经过实验分析分别列出单一索引情况,单一物化视图情况、耦合情况下的性能比较,验证了耦合方法可以极大提高系统性能的结论。论文所提出的关于优化数据仓库性能的耦合方法,具有一定的理论意义和应用价值。