基于语义的压缩数据立方体构建与查询技术研究

来源 :北京大学 | 被引量 : 0次 | 上传用户：wjtezx

【摘要】

：

数据立方体计算是数据仓库实现的一项基本任务。数据立方体的全部或部分预计算可以大幅度降低查询响应时间，提高联机分析处理性能。然而，这种计算是一种挑战，因为它需要大量计算

【作者】

：

张卫华

【机构】

：

北京大学

【出处】

：

北京大学

【发表日期】

：

2008年期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

数据立方体计算是数据仓库实现的一项基本任务。数据立方体的全部或部分预计算可以大幅度降低查询响应时间，提高联机分析处理性能。然而，这种计算是一种挑战，因为它需要大量计算时间和存储空间。然而研究发现，在数据立方体中存在很多的冗余信息，去掉这些冗余信息，不但可以减少数据立方体的存储空间，而且可以减少数据立方体的生成计算时间，这一点在高维和稀疏数据立方体中表现更为明显。近年来，国内外对基于语义的压缩数据立方体计算开展了不少的研究，作为数据立方体压缩存储技术的一个分支，已经取得了不小的发展，但还存在对复杂多维模型支持不够、查询响应性能不高等不足。　　本论文针对以上需求和问题，对基于语义的压缩数据立方体构建方法和查询技术进行了比较全面和深入的研究，提出了若干理论和方法，主要工作和创新成果概括为以下五方面：　　 1.提出了一种新的立方体语义关系--最佳覆盖视图　　数据立方体中基本的语义关系除了从立方体方格机构中获取的上钻和下钻语义外，还有立方体中单元（Cell）的相似性。本论文基于单元格之间的覆盖（cover）关系，提出了一种新的最佳覆盖视图的语义关系，它基于视图来表示立方格，利用视图间的下钻关系记录了单元格之间的下钻关联，从根本上保证了压缩立方体的语义无损，它可以很好地表示维的层次性关系。基于最佳覆盖视图的语义关系构造的压缩立方体（BCV-Cube）具有良好的压缩性能，同时具备比其他基于语义的压缩立方体更高的查询效率。　　 2.提出了对最佳覆盖视图语义关系的存储结构　　发现单元之间的上钻和下钻关系以及单元之间的相似性语义关系后，如何设计一个紧凑的立方体存储结构同样是一个重要的问题。本论文提出了一个新的树结构--BC-Tree。BC-Tree结构满足了我们对立方体存储的三个要求：（a）能够保存每个立方格的所有必要信息，确保语义信息在压缩的过程中不会丢失，语义关系完整；（b）能够更高效的执行各种查询，包括点查询、范围查询、冰山查询；（c）可以有效的维护更新。　　 3.提出基于语义的压缩数据立方体的增量更新算法　　由于数据立方体计算代价巨大，因此，对增量更新的支持程度是评价一个数据立方体压缩算法的重要因素。通常，基本表中的基本单元发生任何变化，都可能影响单元之间的语义关系，需要及时增量更新压缩数据立方体以应对这种变化。本论文中针对基本表的插入，删除和修改三种更新方式，提出了BCV-Cube和BC-Tree的增量更新策略和相关算法。　　 4.提出了保持语义的压缩数据立方体的查询性能与压缩比例之间的平衡策略　　保持语义的压缩数据立方体一方面要减小数据立方体的体积，同时要保证对查询的快速响应性能。现有的以时间换空间的解决方案，在获得高压缩比的情况下却牺牲了查询效率，这有背于联机分析处理需要快速的查询响应时间的要求。本文基于视图查询代价概念，提出了解决保持语义的压缩数据立方体的查询性能与压缩比例之间的平衡的方法。　　 5.支持对XML数据立方体进行压缩。　　随着B2B等应用的推广和普及，可以设想不久的将来大量的商业数据将存储在XML，数据库中。因此，直接对XML数据进行联机分析是一个值得研究的问题。由于XML文档相当臃肿，并且XML，文档结构复杂，因此用XML文档作为存储结构更需要研究计算Cube的压缩算法。本论文利用XML文档具有明显的层次结构特点，结合BC-Tree的数据结构，提出了一种新的XML cube的表示方式，用XML本身的层次结构来表现数据立方体元组之间的聚集关系，该实现方式可以有效地减小XML数据立方体体积。　　这些研究成果，已部分在电子政务领域的某些实际项目中得到应用，取得了良好效果。

其他文献

802.16QOS体系结构及调度算法研究

本文主要探讨了802.16无线宽带城域网中的QOS系统框架设计和OFDM物理层无线资源调度算法设计.在对802.16无线宽带城域网的MAC层和物理层进行详细的技术分析基础上,设计了802.

学位

802.16无线宽带城域网OFDMQOS无线资源调度

人Brg1蛋白Bromodomain结构域的溶液结构测定及其与乙酰化组蛋白的相互作用研究

本论文工作的重点是人染色质重构复合物SWI/SNF的核心亚基Brg1的Bromodomain结构域的克隆、表达、纯化和溶液结构测定以及它与乙酰化组蛋白尾巴的相互作用研究。论文分为以下

学位

人染色质重构复合物溶液结构测乙酰化组蛋白组蛋白密码

移动AD-hoc网络稳定性路由的关键技术研究

节点的移动性是移动Ad-hoc网络的重要特征之一。由于节点的移动会对节点间链路和路径的连通性造成破坏，进而降低路由性能，本论文针对移动Ad-hoc网络中存在的这个问题，深入研究了

学位

移动Ad-hoc网络稳定性路由节点间距离移动轨迹预测相似度评估

算术编码在栅格数据压缩中的应用

随着GIS应用领域的扩大和时态GIS的发展，GIS栅格数据在模拟和预测土地荒漠化扩展、森林病虫害防治、火灾蔓延等领域中得到了较多的使用，但这些栅格数据具有很明显的时间特性，也

学位

GIS算术编码时序栅格数据自适应模型数据压缩信息处理

如何增强小学语文课堂的趣味性

摘要：小学阶段的孩子们正处于天真烂漫、活泼好动、对新奇趣味化的东西充满探究欲望和热情的时期，教师在实际开展教学的过程中，要紧紧抓住学生的这一心理特点和诉求，想方设法营造出充满趣味化的语文课堂，以此激发学生学习兴趣，本文主要对当前教育背景下如何实现小学语文趣味课堂教学进行了探讨，希望能对有关老师提供一定的参考和帮助。　　关键词：小学语文；趣味教学；评价　　一、增强课堂导入环节的趣味性　　良好的开端是

期刊

小学语文趣味教学评价

经验模态分解和小波分解的滤波特性比较研究

非平稳信号是一种在工程实践中非常常见的非线性、非稳定信号，广泛存在于海洋、气象、地震、生物医学工程、桥梁监测等实际过程中。而从非平稳信号中有效地检测出有用信号，不仅

学位

信号分析非平稳信号经验模态分解小波分解滤波特性滤波技术

薄皮甜瓜蔓枯病的发生与防治技术

主要介绍了薄皮甜瓜蔓枯病的症状、病原菌形态特征、发生发展规律及防治措施等,为甜瓜蔓枯病的防治提供参考。 This paper mainly introduced the symptoms of thin-skinned

期刊

甜瓜蔓枯病薄皮甜瓜蔓枯病综合防治甜瓜生产病原菌形态茎蔓甜瓜种子厚皮甜瓜甜瓜

安娜作品赏析

请下载后查看，本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.

期刊

作品赏析

遥感卫星双通道实时数据处理与传输技术研究与实现

随着遥感卫星技术快速的发展及其在各个领域广泛的应用，遥感地面接收与记录系统技术也随之不断提高。近些年来，网络与计算机等相关技术也在迅猛发展，如何利用这些新技术、新设备

学位

遥感卫星记录系统双通道帧同步数据处理

SAR高速实时数据记录系统的研究与实现

合成孔径雷达(简称SAR)由于其在民用和军事方面的广泛应用，受到了越来越多的重视。SAR技术的飞速发展和SAR图像分辨率的不断提高，使SAR回波数据量和回波数据的数据传输率不断的

学位

PCIE总线SCSI合成孔径雷达数据记录PEX8311WDM

基于语义的压缩数据立方体构建与查询技术研究

与本文相关的学术论文