论文部分内容阅读
近年来,多维数据查询联机分析处理技术(Online Analytical Processing,OLAP)越来越重要。基于OLAP的多维分析技术成为企业管理人员重要的决策依据。目前,针对OLAP的研究都是面向单一数据模型的存储处理和相应OLAP查询性能上的优化。单一数据组织模式的基于关系数据库的ROLAP(Relational-OLAP)和基于多维数据库的MOLAP(Multidimensional-OLAP),无法满足在不同规模级别数据集下异构数据模型和低延迟的多维查询需求。针对以上问题,本文从不同数据组织模型的查询规划、查询解释、缓存查询优化机制等方面改进,设计和实现了一个可扩展性和高效性的分布式混合型联机分析处理(Hybrid-OLAP,HOLAP)系统。该系统旨在解决不同规模级别数据集的多维查询,根据不同多维组织的实现模式作出高效合理的查询处理。基于该系统下的研究主要包括以下四个方面的内容:第一,针对传统ROLAP系统无法高效地解决大规模数据集的多维分析问题,提出了一个能够在Hadoop环境下,满足不同规模级别数据集进行快速多维查询分析,同时支持Hive的MDX(Multidimensional Expressions)查询解释和聚集方法,以及基于Hbase预计算缓存机制的多维查询优化方法的HOLAP系统架构。第二,针对大规模数据集上的Hive多维查询优化,通过一种构建Hbase立方体缓存的分段逐层降维聚集算法(S-Redu-D-A),研究了从类似关系型数据库Hive到Nosql数据库中,Hbase数据模型的形式化方法(Hsql-To-Nosql Formalized Model,Hs-Nos-FM)。提出并验证了满足HOLAP高效地形式化多维立方体(Format Multi Cube,F-M-Cube)数据存储模型,在大规模数据集多维查询上表现出良好的性能。第三,针对两种查询计划,通过实时性要求、数据规模、维度基数、存储空间、多表连接、查询频率等指标进行查询规划计算分析;提出了包含权限控制、查询监听、查询分析和查询分配的查询规划工作流程。通过对不同规模数据、不同多维查询的执行时间对比分析,有效地验证了基于HOLAP系统架构的查询规划方法,在常见OLAP多维查询中表现出良好的性能。最后,本文通过HOLAP系统架构下的查询规划方法、查询解释机制、形式化多维立方体构建方法、聚集缓存机制、支持Hive的MDX查询,并嵌入形式化方法的构建算法进行详细设计和实现。经过测试,本系统具有良好的性能,达到了预期的设计目标。