百PB级数据规模的离线处理关键技术

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:calvin1987
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于MapReduce编程模型并运行在大规模集群上的数据仓库系统是当今存储、管理和分析海量数据的重要工具。例如,基于开源MapReduce平台Hadoop的Apache Hive数据仓库系统已经被包括Facebook和淘宝在内的许多大数据拥有者所采用。然而由于海量数据处理的复杂性和MapReduce模型的特殊之处,基于MapReduce的海量数据仓库需要解决从数据存储到查询优化的一系列关键问题。本文的贡献是定义和解决如下三个问题。  第一个关键问题有关数据存储组织方式。本文认为一个高效的数据组织方式必须同时满足多个指标,例如磁盘数据空间最大化的利用和优化上层查询系统的性能。  第二个关键问题有关数据通信机制的优化技术。MapReduce中的的数据通信机制受限于其可伸缩性和容错性这两个重要设计目标。然而为了提高查询执行性能,关键数据通信机制必须在保证通用性的情况下使用最优化的算法。  第三个关键问题利用数据的物理组织优化数据通信。一个高效的数据查询引擎需要生成高效的查询计划。本文认为在MapReduce环境中,一个高效的查询计划必须充分利用数据的物理存储布局而优化MapReduce中的数据通信。  为解决第一个问题,本文提出了一种适用于MapReduce的行列混合存储方式,RCFile。这种存储方式可以使得数据仓库的数据存储量提高30%,并且可以优化查询的I/O与CPU。此技术被多个基于MapReduce的数据系统支持,同时其也被大量实际生成系统广泛使用。例如Facebook使用本文的RCFile作为其百PB级离线数据处理平台的默认数据存储方式。  为解决第二个问题,本文研究MapReduce执行模型中Map与Reduce的数据通信(shuffle)的瓶颈。本文实现并验证了一种优化的Map阶段数据通信的技术。本文以MapReduce的Hadoop实现为基准平台对新算法进行了验证对比。本文的优化算法能够加速Map阶段的输出排序10倍,可以使Map阶段的CPU使用降低50%。本文的新算法已经在Facebook的MapReduce平台成为了默认算法。  为解决第三个问题,本文研究了如何使查询利用数据的桶属性与有序属性去除Map与Reduce的数据通信。本文据此提出了多种连接与聚集操作的优化方式。实验数据表明在利用数据布局优化的查询可以加速3倍以上。本文的优化方式已被集成到开源数据处理系统Apache Hive中,并得到了广泛应用。
其他文献
目前,大多数互联网体系架构的研究停留在纸面上,难以验证或付诸实践。为了解决这个问题,网络虚拟化被引入到计算机网络的研究中,通过网络虚拟化,多个互相隔离的逻辑网络可以共享相
近几年来,现代的可视物体跟踪技术得到了突飞猛进的发展,基于协相关滤波的跟踪器在精度和鲁棒性都具有十分优秀的实验结果,但其对于物体大小的自适应性仍然可以进行扩展,并且在特
随着计算机技术与硬件的快速发展,3D打印的相关技术在增量工艺中的应用越来越广泛,迫切需要一种支持多种数据格式且高效的切片软件。目前所见的软件系统支持的格式和功能都比较
CCSDS协议识别技术是空间信息获取与分析研究中的重要组成部分,它的应用领域主要包括空间合作探测任务中的协议标准化研究和空间信息对抗。前者主要是通过获取的数据协议类型
随着计算机的日益普及,传统的电子业务已经越来越难满足用户的各种需求,因此,各式各样丰富的电子系统得到了迅猛发展,开拓了更为广阔的市场空间。由于传统的系统受限于软件开
由于全球环境污染、资源短缺等问题,新能源技术已经成为当今炙手可热的话题,受到了各国政府的高度关注。随着城市汽车保有量不断增长,环境污染也日趋严重,电动汽车具有噪音低
随着互联网的高速蓬勃发展,我们现在所处的时代是一个“信息大爆炸”的时代,在这每天瞬息万变浩瀚如海的信息中准确定位人们所需要的信息是一个极大的挑战。作为一种无监督的机
学位
学位
随之网络应用的快速发展,互联网应用逐渐向以服务为基础的方面转型,对于当今Web应用开发来说,Web服务(Web Services)技术无疑是其强大的解决方案之一。然而,传统的Web服务技术已