论文部分内容阅读
随着大数据时代的到来,联机分析处理领域也面临大数据的严峻挑战。联机分析处理以多维分析为基础,根据用户需求构造数据立方体,对数据立方体进行处理加工后将结果展示给用户。数据立方体的计算在联机分析处理领域一直是研究的热点,在数据量不断增多,维度不断增加的情况下,传统的数据立方体的计算遇到严重瓶颈——难以在有限的时间内完成高维度、大数据量的数据立方体的计算。随着近年来多核CPU的普及和应用以及内存容量的不断增长,如何建立基于内存的数据结构并高效利用多核CPU的并发处理能力来处理海量高维度的数据立方体成为研究的热点。本文提出了基于内存的立方体树数据结构模型,提出了基于多核CPU的多线程高维立方体生成低维立方体的算法,加快了立方体的生成速度。针对数据立方体的生成问题,本文的主要研究内容如下:(1)对数据立方体的基础知识和数据立方体聚集运算中聚集函数的分类以及基于数据立方体的基本操作进行了总结,对一些经典的数据立方体进行了描述;(2)深入讨论了统计树以及基于统计树的算法,针对其占用存储空间较大的缺点提出了立方体树存储结构,以及利用多核CPU并行创建立方体树的算法;(3)提出了基于立方体树存储模型的高维立方体生成低维立方体的断层重排算法,并基于多核CPU对该算法进行了并行化实现,并通过实验证明了该算法的高效性。