高性能数据立方体研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户：edwinandwolf

【摘要】

：

联机分析处理是数据仓库所能提供的一种基本的数据分析服务，而数据立方体是实现联机分析处理的主要手段。如何高效处理数据立方体中所包含的大规模数据是数据仓库研究和应用领

【作者】

：

李红松

【机构】

：

北京交通大学

【出处】

：

北京交通大学

【发表日期】

：

2005年期

【关键词】

：

联机分析处理数据处理多维数据增量式维护略图高效存储结构

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

联机分析处理是数据仓库所能提供的一种基本的数据分析服务，而数据立方体是实现联机分析处理的主要手段。如何高效处理数据立方体中所包含的大规模数据是数据仓库研究和应用领域的一个关键问题。本文对于数据立方体的优化研究主要集中在如何减少其存储代价、查询时间和维护(更新)时间上，以及如何在这几者之间达到较佳的平衡。 QC-Tree是近两年提出的一种数据立方体的高效存储结构。它在极大限度地压缩了数据所占用的存储空间的同时，保持了良好的更新和查询性能。本文提出了一种在QC-Tree中实现cell级别的部分物化的结构：PMC。PMC的物化算法不同于已被广泛研究的视图物化算法。在传统的视图物化算法中，一个视图中的所有cell数据要么全部被物化，要么全部不被物化。而就我们所知，PMC是第一种在cell级别进行数据的选择和物化的结构。实验表明，PMC能够进一步减少QC-Tree所占用的存储空间并拥有更少的更新代价。此外，PMC还能保证数据立方体中所有数据在查询性能上的均衡性，这是传统的视图物化算法所无法做到的。对于多维数据的范围查询处理而言，联机聚集是一种比较合算的查询策略。然而，以前在数据立方体上实现的联机聚集往往需要附加空间来存储联机聚集估算所需要的信息，这极大地影响了整个数据立方体的存储和维护性能。本文提出了基于QC-Tree的用于范围查询处理的联机聚集算法PE及其与简单聚集算法相结合的混合聚集算法HPE。此外，本文还提出了一种能够同时处理多个范围查询的联机聚集算法MPE。与以往联机聚集算法不同的是，本文提出的算法不需要任何附加空间，而是利用QC-Tree自身保存的聚集数据和语义关系来估算聚集结果。对算法的分析表明，本文提出的算法能够同时较好地满足多维数据的范围查询处理算法的三个要求，而这是过去的算法很难做到的。实验结果也证实了这一点。在数据仓库领域的另一个关键性问题是如何在源数据发生变化时，对数据立方体中的数据进行有效的增量更新。文中提出的DSD算法是I.S.MumickT作的延伸。与Mumick的工作不同之处在于，本文使用两种增量表来将不同类型的更新数据分开存放，进而利用所保存的更新数据的操作类型的信息，对数据立方体的更新过程进行优化。此外，DSD算法维护过程中遵循了合理的刷新顺序，因此在出现重新计算的情况下，可以使用数据的最近的物化祖先进行临时导出计算，而不是使用基表。实验结果表明，DSD算法在性能上较Mumick的算法有较大幅度的改善。文中认为，对于更大规模的数据流数据，传统的技术已经很难将数据完整的保存在数据立方体中，只能采用近似存储和近似查询的方法处理。略图是近两年提出的一种高效的数据流近似查询处理工具。在计数-最小略图中，点查询是其它所有较复杂查询的基础。本文着重研究计数-最小略图的新的点查询估算方法，分别提出了在收款机模型和十字转门模型下更有效的查询算法，并初步证明了本文提出的算法的优越性。实验结果也证实了本文的结论。

其他文献

基于.NET技术的林权管理信息系统的设计与实现

随着信息技术的迅速发展和林业信息化建设的不断深入，通过网络实现林权信息的统一管理，将成为今后林权管理信息系统的发展方向。林权管理信息系统依据林权管理信息化建设的发展

学位

.NET林权管理信息系统B/S体系结构

基于NGOSS的电信业务支撑系统规划设计

随着市场的开放，世界经济愈来愈全球化，市场变得愈来愈国际化。随着我国加入WTO以及电信行业的重组，国内电信业的市场环境已渐趋合理且竞争将日益加剧。如何改变经营模式和服务

学位

OSS/BSSNGOSS电信运营支撑系统框架

基于RPR技术的小数据包优先发送算法

本文对RPR网络的媒体访问控制层的参考和服务模型、媒体访问控制层的数据路径、数据链路层帧格式、RPR网络的公平算法进行了研究。在此基础之上，提出了一种基于RPR技术的小数

学位

网络服务质量小数据包优先发送媒体访问控制层数据路径发送延时

企业信息管理中数据仓库的研究与应用

当今,信息技术的迅速发展,将企业带入了联机分析处理、数据仓库和数掘挖掘的信息分析时代。数据仓库在短短的几年内已经从一种单纯的理论研究发展成信息管理与信息系统开发领

学位

数据仓库企业信息管理决策支持系统联机分析处理

图像编码中的小波分析及应用研究

图像数据规模的膨胀使其存储、传输、分析和处理面临巨大挑战，因此如何减小图像的存储和传输成本、快速分析和处理图像、从海量图像数据中选取有用信息变得尤其重要。为此，从改

学位

图像编码显著性检测小波变换自适应聚焦方向提升CUDA架构

网格资源自治管理和任务自主调度的设计与实现

网格就是将广域范围的各类计算资源(包括CPU、存储器、数据库等)通过高速的互联网组成共享的资源集成,提供一种高性能的计算、管理和服务的资源能力。使用这些资源就像用电力

学位

网格计算OGSALDAP网格资源信息服务动态资源信息

面向对日软件外包领域的计算机辅助文档翻译系统

经济全球化的发展带来了急速发展的软件外包业务。对日软件外包要求我国软件企业具有较强的日文文档写作能力，这个写作能力的限制成为对日软件外包发展的一个绊脚石。本文

学位

计算机辅助翻译软件外包相似度翻译记忆平行语料库日文

具有状态过滤的主机防火墙的设计与实现

随着互联网的飞速发展,越来越多的普通网络用户连接到互联网中。人们在充分享受着互联网所带来的方便和高效的同时,也不断受到黑客的恶意攻击和骚扰。因此,针对普通网络用户

学位

主机防火墙NDIS 中间层驱动程序包过滤状态检测

WAP网关的研究与实现

随着移动通信和因特网的迅速发展，移动终端上网的需求日益增加。由于移动终端处理能力、容量、能耗方面的不足以及无线网络在网络带宽、时延、可靠性能方面的缺陷，使无线终端不

学位

WAP网关无线会话协议无线事务协议无线传输层安全状态机多线程

网格资源优化研究及其在LabForm中的应用

随着分布式多媒体应用的急剧增加，越来越多的应用要求网络提供良好的服务质量，同时在计算网格环境中存在大量的闲置网络资源如计算资源，存储资源，信息资源等。为了更好的利用这些

学位

计算网格网格资源计算经济市场模型资源优化分布式多媒体网格资源管理网络管理

高性能数据立方体研究

与本文相关的学术论文