论文部分内容阅读
随着大数据和云计算时代到来,像联机分析处理(On Line Analytical Processing, OLAP)这种需要大量计算和存储开销的问题变得简单许多。然而受数据海量化和高维化影响,OLAP技术在计算和存储方面仍然面临严峻的挑战,分布式环境下的处理方式只是缓解上述挑战。本文提出了直方图数据立方体的压缩架构,分别从直方数据图立方体的底层存储结构,内容压缩,整体压缩三个方面进行了优化处理。首先底层存储结构上,本文基于直方图数据立方体和封闭数据立方体技术对于直方图数据立方体的存储结构进行改进,提出了封闭元祖+直方图的底层存储结构;内容压缩上,本文根据直方图数据立方体的统计结构信息提出计数倒转的压缩方法;整体压缩上,本文借用文件压缩进一步压缩直方图数据立方体;综合上述三种压缩技术,本文实现了对直方图数据立方体的高效压缩。构建数据立方体在时间上是一种很大的开销,前人大多都是在研究如何用尽可能少的时间构建一个完全数据立方体,而数据立方体是面向企业应用的,企业会有不断的新数据需要累加到数据立方体中。本文对数据立方体增量更新的收益与代价进行了分析研究,对数据立方体增量构建方法进行了探索,本文提出了封闭数据立方体增量更新时没有删除只有增加和更新的规律,并在MapReduce分布式环境下实现了MRC-IncreUp算法。封闭数据立方体的查询实现才是OLAP的最终目的,本文提出了基于查询键的直接查询和基于封闭原则编码分类的分类查询,另外为了实现交互式查询,本文引入了Impala大数据实时查询系统,并提出了利用Impala系统完成交互式查询的架构和查询优化策略。本文在TPC-DS测试数据集上通过实验证明了:对数据立方的压缩情况,以及增量更新相对于重新计算的优势和查询算法及实现的相对于以前查询算法的高效性。