论文部分内容阅读
近年来,随着数据仓库在商业运作中的日益广泛的应用,联机分析处理(0LAP,0n一1ineAnalyticalProcessing)作为数据仓库系统的核心组成部分,越来越受到人们的重视,引发了0LAP技术的研究热潮,也带动了0LAP的进一步发展。然而,到目前为止,仍然存在着一些问题没有得到很好的解决。
在本文中将着重讨论其中的两个问题:1)为提高查询响应速度进行物化视图选择时必须考虑的视图大小的估算问题;2)与M0LAP制定存储策略(多维数组或压缩存储方式)密切相关的维度间相关性的分析问题。
上述两个问题都与数据集的分布情况密切相关。0LAP的元数据信息只能反映数据集在单个属性上的分布,忽略了属性之间的联系和数据集的整体分布。而频繁项集挖掘能够找出数据集在给定维度上多次出现的项集的信息,更好的刻画数据集的分布和属性维度间的关联,因此被用于本文的研究当中。
本文中将主要探讨频繁项集技术在0LAP的上述两大问题中的应用:
为了估算数据立方中所有候选视图的大小,本文提出了一种新的方法FSC。FSC将0LAP中的视图看成是包含给定列上项集的集合,把0LAP视图大小的估算问题转换为给定列上项集个数的估算。它将视图中包含的项集划分为频繁项集和非频繁项集两类,结合频繁项集技术和传统的数学估算方法,对给定数据立方中包含的所有候选视图的大小进行估算。实验证明,与同类算法相比,FSC的精度有较大的提高,特别是针对倾斜度较大的数据集。
在对0LAP中的维度组合进行相关性分析时,本文将分析维度间的相关性转换成分析维度组合中包含的项集的相关性。定义了项集的相关度和基于前者之上的维度间的相关性度量,并提出了针对倾斜度较大的数据集估算维度间相关度的CMM算法。CMM算法将维度组合中包含的项集分成频繁项集和非频繁项集两类,通过将计算频繁项集相关度和采样估算非频繁项集相关度相结合的方法估算维度问相关性的度量。实验证明,该度量的提出能够有效的衡量维度间关联的紧密程度,C删算法对维度间相关度的估算具有一定的准确度,特别是针对倾斜度较大的数据集。
本文的最后介绍了由笔者参与开发的一个基于国产关系数据库的0LAP系统的结构和各部分的功能。FSC算法将被集成到该系统的物化模块以获得更好的物化视图选择方案。