基于GPU的大数据OLAP分析关键技术的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:dengwj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代的到来,从海量数据中提取有价值信息对企业,政府等部门至关重要。本文主要研究内容是大数据下的OLAP分析。Hadoop——集分布式文件存储HDFS和并行计算模型MapReduce于一体的平台能够有效地实现对海量数据的分布式存储,但是在计算方面,只能做到任务级别并行。而图形处理器(Graphics Processing Unit,GPU)作为大规模多核并行处理器,相对于CPU能够达到10X计算能力,但是存储空间小,因此本文利用GPU的多核并行计算能力,基于GPU实现了Hadoop任务内数据级别并行,对大数据OLAP分析中的关键技术进行了研究。其中,多维数据聚集是OLAP分析的核心操作。Cube预计算是提升OLAP分析效率的关键操作。多个维表和事实表的连接是基于ROLAP结构的OLAP分析中的瓶颈。因此,本文基于如上三个方面展开了研究工作:  为了提升大数据上的多维数据聚集效率,设计了基于GPU优化Hadoop上的聚集算法,分为mapper部分的基于哈希的局部聚集算法和reducer部分基于GPU共享内存,全局内存的二次聚集算法。通过与Hadoop原始聚集算法对比,证明了基于GPU的大数据聚集算法的有效性。  为了提升大数据上的Cube预计算效率,设计了基于GPU的大数据Cube算法。Hadoop通过方体编码实现任务划分,完成对GPU的调度,GPU负责针对每个方体执行具体的聚集计算工作。此算法基于GPU完成计算工作,只需一轮mapreduce任务即可完成所有的Cube计算任务,实验证明了基于GPU的Cube算法的有效性。  为了降低多个维表和事实表的连接代价,通过对维表建立倒排索引,将OLAP查询流程由首先连接,再过滤,最后聚集优化为先对基于倒排索引的维表执行过滤,再连接,最后聚集。再者,为了提升OLAP分析效率,设计了基于GPU的连接算法和点查询算法,实验证明了基于GPU进行OLAP查询有一定的性能提升。
其他文献
自20世纪90年代中期由Vapnik等人提出支持向量机(SVMs),由于其具有通用性、鲁棒性以及良好推广性等特点,已经成为解决分类、回归等统计学习问题一种流行的技术,并广泛应用于数据
随着互联网技术的飞速发展,网络中传输的多媒体信息数量也在不断增加。同时,人们对网络传输质量的要求也在不断提高。然而,在现实网络中却存在诸多不稳定因素,如丢包或位错误等,这
计算机的普及和互联网的快速发展,使得数字图像常常被非法复制并随意传播,其版权保护需求日益迫切。目前,用于图像版权保护的技术主要有两种:数字水印技术和基于内容的图像拷贝检
微电子技术、计算技术和无线通信等技术的进步,推动了低功耗多功能传感器的快速发展,使其在微小体积内能够集成信息采集、数据处理和无线通信等功能。目前,无线传感器网络广泛应
声学特征的提取是语音识别(包括说话人识别)的关键技术之一,目的是通过对语音信号进行数字处理,将其表示成反映语音本质特征信息的参数序列。当前,包括反映人的听觉感知特性的、具
上世纪90年代,Dietterich等人在药物活性预测问题的研究中提出了多示例学习的概念。在该学习模型中,训练样本的歧义性比较特殊,使得多示例学习模型与传统的机器学习模型有很
现代商业数据库领域中,日益增长的数据为数据查询以及数据存储带来了巨大的压力。越来越多的研究关注于如何有效的在大数据集合上进行查询操作。由于目前中央处理机(CPU)的发
软件测试在软件的整个开发过程中占有非常重要的地位,是保证软件质量的关键步骤。航空软件具有实时性、嵌入性、高可靠性等特点,对其进行严格的软件测试至关重要。测试用例生
基于构件的开发和模型集成的开发是目前软件工程领域中研究的热点,构件化开发是通过标准化软件系统的组成元素,以构件为单位构建系统。模型集成旨在通过提高软件的抽象层次,将软
随着社会的发展,目前的互联网所暴露出来的弊端已日益加剧,诸如IP地址不足、安全性弱、兼容性差等,上述缺陷已经影响到用户对网络业务的使用。因此,国外内针对目前互联网的缺陷,大