频繁项集技术在OLAP中应用的研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:michael047
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着数据仓库在商业运作中的日益广泛的应用,联机分析处理(0LAP,0n一1ineAnalyticalProcessing)作为数据仓库系统的核心组成部分,越来越受到人们的重视,引发了0LAP技术的研究热潮,也带动了0LAP的进一步发展。然而,到目前为止,仍然存在着一些问题没有得到很好的解决。 在本文中将着重讨论其中的两个问题:1)为提高查询响应速度进行物化视图选择时必须考虑的视图大小的估算问题;2)与M0LAP制定存储策略(多维数组或压缩存储方式)密切相关的维度间相关性的分析问题。 上述两个问题都与数据集的分布情况密切相关。0LAP的元数据信息只能反映数据集在单个属性上的分布,忽略了属性之间的联系和数据集的整体分布。而频繁项集挖掘能够找出数据集在给定维度上多次出现的项集的信息,更好的刻画数据集的分布和属性维度间的关联,因此被用于本文的研究当中。 本文中将主要探讨频繁项集技术在0LAP的上述两大问题中的应用: 为了估算数据立方中所有候选视图的大小,本文提出了一种新的方法FSC。FSC将0LAP中的视图看成是包含给定列上项集的集合,把0LAP视图大小的估算问题转换为给定列上项集个数的估算。它将视图中包含的项集划分为频繁项集和非频繁项集两类,结合频繁项集技术和传统的数学估算方法,对给定数据立方中包含的所有候选视图的大小进行估算。实验证明,与同类算法相比,FSC的精度有较大的提高,特别是针对倾斜度较大的数据集。 在对0LAP中的维度组合进行相关性分析时,本文将分析维度间的相关性转换成分析维度组合中包含的项集的相关性。定义了项集的相关度和基于前者之上的维度间的相关性度量,并提出了针对倾斜度较大的数据集估算维度间相关度的CMM算法。CMM算法将维度组合中包含的项集分成频繁项集和非频繁项集两类,通过将计算频繁项集相关度和采样估算非频繁项集相关度相结合的方法估算维度问相关性的度量。实验证明,该度量的提出能够有效的衡量维度间关联的紧密程度,C删算法对维度间相关度的估算具有一定的准确度,特别是针对倾斜度较大的数据集。 本文的最后介绍了由笔者参与开发的一个基于国产关系数据库的0LAP系统的结构和各部分的功能。FSC算法将被集成到该系统的物化模块以获得更好的物化视图选择方案。
其他文献
随着计算机在各行各业的广泛应用,其高速运算的特点为其他学科的研究开辟了新的领域,计算材料学就是其中之一。早在90年代初期,就有国外的相关研究人员在对水泥扫描电镜图像和X
电力系统通信技术的研究是目前电力系统自动化行业的一个热点话题。电力系统通信技术是紧跟计算机和通信等IT技术的发展而发展的。就目前而言,各种最新的通信技术在电力行业都
机器人足球是一个极富挑战性的高技术密集型项目,其研究内容包括智能感知、智能思维、智能学习和智能行为等方面,同时也是机器人足球比赛的竞争焦点。而这些内容又正是人工智能
为了满足地理信息系统等应用系统对高带宽、低延迟的廉价海量存储网络系统的巨大需求,基于VIA(Virtual Interface Architecture)通信协议和以太网技术的VISA(Virtual Interface S
近十几年来,随着信息技术的发展,人们产生和收集数据的能力越来越高,我们身边不断产生着各种各样的数据,我们已经淹没在了数据和信息的汪洋大海中。作为大规模数据处理和决策支持
以总完工时间为目标的无等待流水车间调度问题是一个重要的制造加工系统,广泛应用于工业生产中。无等待问题是流水车间调度中的一种,是一类典型的NP完全问题,已被证明在多项
播存网络中,广播源点基于网络用户行为的无尺度现象,聚类整合互联网热门信息内容,对热门信息内容进行UCL(Uniform Content Label)信息标引并通过广播分发将热门信息内容的UCL和
现如今,Web上的数据以无法想象的规模在迅速的增大,对这些数据进行挖掘可以得到很多重要信息。本文对创新知识云平台所生成的Web日志进行挖掘可以有效的了解客户的需求,掌握
随着网络通信技术不断完善和社会信息化程度不断提高,分布式的管理信息系统的应用技术取得了长足进步。与此同时,国内高校办学规模正在迅速扩大,高校教学管理工作量随之大幅增加
随着互联网的发展,网络上的信息越来越多,传统的搜索引擎已经不能满足用户个性化的信息需求,推荐系统的出现就是要将用户从大量的信息中解脱出来,快速准确的将用户感兴趣的内容推