基于MapReduce的列存储分析型数据库研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:jxt1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,互联网应用的高速发展和电信、交通、金融等各个领域数据规模的快速增长,大规模数据处理的应用日益显著。Google提出的MapReduce编程模型由于其高伸缩性、容错性和易用性,赢得了工业界和学术界的广泛关注。但来自数据库领域的一些研究者认为MapReduce模型在数据存储上没有考虑定义数据的模式及完整性约束,在查询处理中没有利用索引等传统数据库中常见的优化技术,是数据分析技术的一种倒退。此外,一些研究者对混合型数据处理模式进行了原型研究。例如,HadoopDB是一个将MapReduce框架与底层数据库实例相结合的混合型分布式数据库原型系统,该系统希望具备MapReduce的可伸缩性、易编程性以及利用数据库在查询处理方面的优化技术。其研究思路为探索新的数据处理系统设计提供了参考。   本文的主要工作如下:   (1)从系统设计的角度分析对比了MapReduce编程框架与无共享式并行数据库在各自系统设计中的特性,提出了基于MapReduce的列存储分析型数据库设计中模式、计算模型、数据分布与索引、性能、容错能力及编程灵活性等六个需要权衡考虑的因素,为下文的原型设计和实现提供了理论基础。   (2)基于开源Hadoop和MonetDB实现了MR-MonetDB系统原型。针对HadoopDB设计中存在的一些不足加入查询优化技术。首先提供数据分区的自动分区机制及两种分区策略;其次在查询引擎中添加优化阶段,提供查询子句下推以优化查询性能;最后对记录数量小的维表提供复制策略以及对分布式连接进行优化。   (3)通过原型系统在HadoopDB论文中测试集上的实验,验证系统设计和优化技术的有效性。在不同数据规模大小的环境下,对Grep、Selection、Aggregation、Join四种类型的任务进行了测试。初步的结果表明,在MR-MonetDB系统中,通过结合查询优化技术及底层列存储数据库实例的能力,其查询性能与传统Hadoop程序及HadoopDB相比有一定提高。
其他文献
管理信息系统是一个以人为主导,利用计算机硬件、软件及其他办公设备进行信息的收集、传递、存贮、加工、维护和使用的系统[1]。它以企、事业单位战略竞优、提高收益和工作效
网页游戏行业在最近几年迅速发展,成为了一个具有巨大发展潜力的产业。在巨大的产业发展前景的吸引之下,网页游戏开发的行业中不断涌现出新的开发商。利用引擎开发网页游戏是提
软件作为计算机系统的大脑,负责控制计算机硬件的执行操作,涉及到人们生活的每个角落,也广泛应用于安全关键部门,计算机软件安全的重要性不言而喻。操作系统安全是信息系统安全的
流体,如水、烟、火,是生活中最常见的自然现象之一,对于流体现象的仿真模拟在影视特效、游戏、灾害预防等应用中具有极为重要的意义。因此,近二十年来,流体模拟一直是计算机图形学
随着移动终端硬件技术以及移动互联网的发展,人们常用的设备越来越多,设备上的应用也越来越丰富。但是不同设备操作系统之间缺少统一的接口去实现应用软件的开发,如果开发一款应
软件复用作为提高软件开发效率和软件质量的一种重要途径,是软件工程研究的一个热点。软件复用的一个有效手段是领域工程,其目的是为特定领域的软件建立可复用的软件制品。领域
随着网络和计算机技术的发展,如何对网络上爆炸性增长的多媒体数据进行有效的分析和检索已经成为多媒体内容分析领域亟待解决的问题。为了对这个问题进行分析并提出相应的解
合作无论在自然界还是在人类社会都是最广泛也最重要的现象之一。然而尽管合作行为在我们的生活当中很常见,它背后的产生机制却并不是显而易见的。因为我们每个人都是自私的个
安全操作系统是保障信息安全的重要基础设施。由于其自身的复杂性,如何对安全操作系统进行测评以确保其能达到所声称的安全需求一直是科研界和工业界所关注的热点。但从安全操
图像超分辨率重建的目的是在不增加成像传感器数目的前提下,突破物理系统结构制约,以较低代价最大限度的增强成像系统分辨率和成像质量,有效的利用成像系统的观测数据和先验知识