基于维层次数据立方体存储技术的研究

来源 :中南大学 | 被引量 : 0次 | 上传用户:hawkwangyan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据立方体是数据仓库和联机分析处理的核心概念。为了加速响应联机分析处理系统中的复杂多维查询,通常需要预先计算并保存数据立方体,然而数据立方体的巨大尺寸却给其计算和存储带来诸多难题。因此,降低磁盘空间成本和提高查询性能成为数据立方体研究两个重要却又相互制约的目标。为了从根本上解决这些问题,需要探索有效的数据立方体组织方法。本文首先改进实现了计算维层次数据立方体的ICODH方法,该算法在给定的维顺序下,自底向上逐层递归计算;当具体到某一个维,是从维的粗粒度层到细粒度层方向循环计算聚集;通过共享排序来减少磁盘的读写操作,以减小维层次数据立方体的计算时间。另一方面研究了维层次编码技术,提出了一种对维表能有效进行层次编码的方法,保存了原有数据立方体的语义信息。通过这两方面来加快数据立方体的计算速度,提高其查询性能。浓缩数据立方是一种有效缩小数据立方尺寸的机制,但仍然存在大量的前缀冗余,如小方内的前缀冗余和小方间的前缀冗余。对此,本文扩展实现了一种基于维层次的数据立方组织结构IDHC,它结合基本单元组的浓缩和小方内的前缀共享技术,利用维层次的特点,将具有相同聚集维集(或单值维集)的立方元组聚簇,同一簇内的元组以共享前缀的形式组织来进一步减小立方体的压缩尺寸。同时在物理存储这些元组时为了减小因共享前缀而进行大量元组之间的比较,又提出了批处理生成元组的算法。该算法消除了仅包含单个聚集维的数据小方内元组间的比较,并以批处理模式计算IDHC。
其他文献
信息化、网络化推动着企业管理的现代化和科学化进程,企业的管理信息系统不再像以往那样只有人事、工资、财务等静态管理信息,而是加入了生产过程中的许多生产实时动态信息,
食物链是生态系统的重要组成部分和存在形式。食物链的研究对理解生态系统的性质和规律,解决生态问题具有重要的作用。食物链是典型的复杂系统,传统的研究方法具有很大的局限
随着因特网规模的不断扩大,如何能更好地管理、利用因特网已引起人们的广泛关注。为达到这一目的,对因特网的网络性能进行测量是必不可少的。影响因特网整体网络性能的因素有很
随着各种非线性电力电子装置的广泛应用,电网中的谐波污染日益严重。为了加强对谐波污染的治理、管理和收费,研究实时、准确、连续测量的电力谐波检测仪具有重要的理论和工程实际意义。目前已有的电力谐波监测系统大多采用基于快速傅立叶变换的检测方法。该方法的信号采集和处理需要较长的时间延迟,信号处理时存在栅栏效应和频谱泄漏现象,导致谐波检测的实时性较差、精确度不高。另外,快速傅立叶变换仅适用于分析平稳渐变的信号
近年来,随着Internet和信息产业的迅速发展,数据量呈现爆炸式的增长,数据库技术得到了广泛的应用。但由于在选择数据处理系统时存在各种差异,使得数据源千差万别,形成了一个
数据挖掘是目前信息技术和数据库技术方面的前沿研究课题。数据挖掘涉及到统计学、人工智能、模糊理论和数据库技术等多项技术。聚类分析是数据挖掘的重要功能之一。支持向量机是一门新兴的边缘学科,具有完备的统计学习理论基础和出色的学习性能,是一类新型机器学习方法,已成为机器学习界的研究热点。本文讨论了数据仓库的构建模型和构建过程,以天津市某区统计局系统为例,对数据仓库技术和数据挖掘技术进行了实际应用的研究。即
网格是继万维网之后出现的一种新型网络计算平台,目的是为用户提供一种全面共享各种资源的基础设施。网格计算近来引起了人们广泛的关注,因为网格能把互联网上的各种资源整合
随着NS2网络模拟器在当今世界上网络协议研究领域扮演着越来越重要的角色,它的一些缺点如学习难、使用难、缺乏远程模拟支持等也越来越引起人们的重视。采用可视化的拖放式建
无线传感器网络是一种依靠大量部署在恶劣环境下、条件极端受限(比如能量有限且不可恢复,通信能力有限等)的动态自组织节点的协作配合来工作的新兴网络技术。无线传感器网络
随着IPv6的逐渐普及以及Internet与移动通信的不断融合,基于IPv6的移动通信受到越来越多的关注。移动IPv6作为IPv6协议的有效补充,能够为移动节点在Internet下的移动和通信提