论文部分内容阅读
数据仓库的在线分析处理(OLAP,On-Line Analytical Processing)和在线数据挖掘(OLDM,On-Line Analytical Mining)通常要对大量的数据进行运算,以精简的结果来回答用户的查询。数据仓库系统的这一特点使得物化视图技术在数据仓库中尤为重要。物化视图是经过数据预处理而生成的表,这些表物理地存储在数据仓库中,通过对其简单运算或简单查找回答用户查询,从而能够在很大程度上提高数据仓库的查询响应速度。由于物化视图占用存储空间、需要进行更新维护,所以物化所有的查询对应的视图是不现实的,必须考虑选出哪些视图进行物化,这就是物化视图选择问题(MVS,Materialized Views Selection)。 尽管对于MVS问题已经有大量的研究,然而现有研究还达不到工业中所要求的稳定性、健壮性,数据仓库的商业产品对物化视图自动选择支持不够理想。现有支持物化视图自动选择的数据仓库产品采用的是静态物化视图选择方案,这种方案违背了OLAP和决策支持系统(DSS,Decision Support System)的动态本质。而数据仓库未来的发展对物化视图选择的效率、易用性、有效性和自适应性提出了更高的要求。 本文提出了一种基于视图访问频率的动态物化视图方案,该方案能够克服静态物化视图选择方案的缺点,它具有自适应、高效、易操作的特点,能解决大规模的MVS问题。 方案根据视图不同的访问需求特征,在不同阶段、以不同的方式物化视图,从而降低了整个MVS问题的复杂度,提高了给定存储空间的物化视图的有效性。系统调用多项式时间的改进的贪心算法,自动选出初始物化视图,填充部分物化视图存储空间,通过对MVS本阶段的子问题规模进行控制,提高本阶段的执行效率。方案认为视图的访问频率反映了用户的查询趋势,因此构造了以视图访问频率为主要因素的收益模型,并以此模型计算的收益值作为物化视图的调整标准,对物化视图集动态物化和调整。这样物化视图集能够随着用户查询趋势的改变而改变,具有自适应性。方案把物化视图分为两种:永久物化视图和临时物化视图,