论文部分内容阅读
数据仓库系统的特点主要是数据量大、要求查询速度快,用户的查询只关心综合数据,而很少关心细节数据.并行数据仓库系统的存储管理与以往的并行系统存在着很大的差异。由于数据仓库系统很少进行更新操作,因此可以在它上面建立大量的索引来提高查询效率。本文从并行系统的特点出发,结合数据仓库系统查询的特殊性,提出了三级索引的机制。我们的主要创新点在于;1.在数据分布时,考虑多维数据的特点,在CMD方法的基础上,加入了用户关注的维和层次,实现了比较灵活的数据分布方式。2.在chunk之上建立基于语义信息的分层编码策略来提高roll-up和drill-down操作的效率。3.在chunk内部采用混合策略来提高存储的效率。4.利用bitmap索引极大地改进了ROLAP的存储效率和查询效率。
在关于索引的问题中,我们还有很多问题可以去探讨,例如在bitmap的编码方式、bitmap的压缩以及采用树型索引等等问题都需要我们在今后的工作中逐渐来摸索和实践。另外,我们也发现无论哪种索引都不可能满足所有的用户查询。因此,我们还需要仔细研究用户的查询模式,以便采用更好的索引方式来提高查询的效率。