论文部分内容阅读
该文论述我们自行研究开发的一个并行数据仓库系统PARAWARE的核心技术--多维数据的存储、查询和维护的理论研究和系统实现.该文共分四个部分.第一部分介绍了数据仓库和联机分析技术的产生与发展,介绍PARAWARE系统研制的背景和它的整体系统结构,给出了该文的研究内容和创新点该文第二部分主要介绍PARAWARE的多维数据存储和索引策略.常用的多维数据存储方式有两种:关系表方式(ROLAP)或多维数组方式(MOLAP).ROLAP在数据的存储容量、适应性上占有优势,但其数据存取较MOLAP复杂.MOLAP存储效率高、访问速度快.但是,它存在着数据稀疏和各个维访问速度不对称两个致命问题.PARAWARE系统采用了将ROLAP和MOLAP两种存储方式相结合的混合存储模式,借助于一种分层编码的bitmap索引充分利用了二者的优点、克服了它们的缺点,在节约存储空间的同时,提高了查询的效率.该文的第三部分介绍PARAWARE的查询处理和优化子系统.根据数据仓库中数据的多维线性特点,PARAWARE采用微软定义的多维表达式(MDX)作为系统的查询语言.第四部分介绍PARAWARE的增量维护子系统.主要针对语义存储结构,借助传统的Galois格理论,捕捉了不同类型等价类的特征并提出了确切的维护策略.针对分布型和代数型聚集函数,提出了两种有效的增量维护算法,一种是单元组增加的方法,另一种是批量增加的方法.针对整体型聚集函数,提出了一种滑动窗口技术,该技术和Addset语义存储结构相结合,有效地缩减了维护整体型聚集函数所需要的运行时间.