【摘 要】
:
OLAP(On-LineAnalyticalProcessing,联机分析处理)是随着数据仓库技术出现的一种数据分析处理技术,它允许用户快速地从不同的角度和层次分析大量多维数据,主要用于决策支持。随着
论文部分内容阅读
OLAP(On-LineAnalyticalProcessing,联机分析处理)是随着数据仓库技术出现的一种数据分析处理技术,它允许用户快速地从不同的角度和层次分析大量多维数据,主要用于决策支持。随着应用的发展,OLAP要处理的数据规模越来越大,已发展到TB级和PB级,数据的维数也已过百。在这种情况下,作为OLAP的传统存储结构,关系数据库和多维数据库都从本质上制约着OLAP的发展。因为关系数据库在查询时需要扫描整行数据,查询效率较低;多维数据库虽然能快速响应查询,但其更新代价太高、灵活性低且不支持大规模数据存储。为解决此问题,本文给出了基于列数据库HBase的OLAP多维数据存储技术和基于MapReduce的基本聚集计算方法。
首先,本文在对OLAP和列存储的研究基础上,提出了一种新颖的将列存储结构应用于OLAP的思想,指出选择HBase用于OLAP的优势。然后对HBase的数据模型、体系结构等关键技术进行了分析,将HBase与OLAP的多维数据模型结合,给出了OLAP多维数据在HBase上的存储方法和数据加载算法,具有较好的可扩展性,并给出了HBase存储的优化策略;对MapReduce编程模型的工作机制、使用方法进行了分析,给出了基于MapReduce的5种基本聚集计算算法,并给出了聚集计算性能的优化策略。实验结果显示,本文的数据加载和聚集计算算法的速度都要明显好于关系数据库,并具有良好的可扩展性,验证了本文采用HBase和MapReduce来存储和计算OLAP多维数据的有效性和优越性。
其他文献
随着大数据分析技术的日渐成熟,大数据所蕴含的巨大价值已经越来越被重视。由于数据量巨大,对大数据进行分析一般是很耗费时间的。然而,在很多情况下,用户并不需要精确的查询
近年来随着人们物质生活水平的提高,人们对于海外购物的需求日益旺盛,跨境电商交易规模逐步攀升,人们在享受优质商品的同时,也给进口产品的检验检疫工作带来巨大的压力。目前
随着计算机性能的提高,人们期望计算机生成的图像既具有很强的真实感又具有令人满意的交互速率。地形可视化技术作为计算机图形学的研究热点之一,在飞行模拟、军事仿真、科学
算法是计算机科学中最核心的内容,自从有计算机以来,它始终是这门学科的研究热点内容。就在计算机科学分支众多的今天,每个分支的基础还是算法的研究。合取范式最大可满足性
随着我国经济的高速发展,人们的生活水平得到明显提高,汽车尤其是私家车的数量越来越多。汽车防盗随之成了人们热切关注的问题,汽车防盗报警设备的需求日益上升。但是经过分析发
随着计算机技术的发展和普及,人们的生产和生活都趋于信息化、自动化。各个公司都会采用适合自己业务的信息系统,这些信息系统潜在的指导着它们的日常业务,并详细的记录下这
随着人类基因组计划的完成,生物数据增长的速度非常快。传统的生物实验的方法在庞大的数据前显得十分乏力。如何快速而又准确的利用生物信息学方法准确,高效的从生物数据中挖
表面缺陷检测在工业生产中对产品质量可以起到有效的监督控制作用,磁性材料在加工过程中产生的表面刀纹缺陷严重影响着其质量,人工去检测这些缺陷效率会比较低,并且容易受到
互联网已成为现代社会最重要的信息基础设施和人们工作、生活的重要组成部分。目前互联网采用的是一种“尽力而为”的传统模式,但是这种模式无法满足多媒体应用和各种用户对网
由硅基材料制造的电子计算机的计算能力持续增长。然而当硅基微电子器件线宽低于10纳米后,计算能力增长遇到技术问题:电路板路线安排问题、晶体管集成技术等。为了克服硅基器