基于MapReduce的分布式多维数据仓库数据放置与查询的研究与实现

来源 :东北大学 | 被引量 : 1次 | 上传用户:wenyuanyuan0929
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网应用和计算机技术扩展到社会生活的各个方面,数据量呈现出爆炸式的增长。今天,存储和处理大规模数据和超大规模数据已经成为企业面临的全新挑战。为此,行业内提出了多种解决方案来满足海量数据处理的要求。云计算是目前比较流行的一种,它的基本思想是将海量数据的处理和分析工作从部署在并行数据库上的高端服务器转移到更廉价的无共享体系结构中的低端服务器集群上。随着云计算技术的日益发展,越来越多的应用程序将被转移到云端,数据库系统也不例外。但如果将数据进行分布式存储,数据库系统所需的ACID(原子性、一致性、隔离性、持久性)四个特性可能导致系统性能不佳,特别是连接操作。为了解决这些问题,本文设计了集成MapReduce和数据库的分布式多维数据仓库系统DMDWH (Distributed Multi-Dimensional Data Warehouse),其中包括五个组成部分:客户端、元数据库、查询引擎、数据加载器和Hadoop扩展集群。在数据放置方面,提出了三种高效的存储策略:表的全复制、独立水平划分和联合水平划分策略,尽可能把相关数据存储在一个节点上,大大增加了在本地执行连接的机会,避免了跨节点的网络通信开销和数据传输代价。在查询优化方面,添加了编译器、优化器、生成器和执行器形成了一套完整的查询引擎,并在生成器中添加了基于代价的优化,产生最优的执行计划。最后对Hadoop的InputFormat和OutputFormat数据接口进行了扩展设计,实现真正意义上的并行地从RDBMS中获取输入数据和输出数据。DMDWH多维分布式数据仓库可以充分发挥RDBMS技术和MapReduce计算架构的优势,使得RDBMS的索引等查询优化技术与MapReduce的高并行性、易操作性、可扩展性完美地结合。最后通过实验证明了该系统架构具有良好的加载性能、查询性能和容错性能,可以为数据仓库应用提供快速高效的并行查询。
其他文献
本文对863子项目中有关信息安全问题进行了初步的探索与总结。首先介绍了目前国内外黑客技术的发展现状,然后基于“扬州经济开发区数据处理与应用示范”项目在安全上的特点,比
  本文对802.1Q协议进行了扩展,在此基础上提出了一种和现有网络完全兼容的VPLS城域网模型。此模型提供简单高效的城域网VPN服务,它允许用户网络VLAN(C-VLAN)封装到公网VLAN(
工作流技术是工作流管理系统中的核心技术,它可以提高软件系统的鲁棒性、灵活性、可重用性和可扩展性。本文介绍了一种基于工作流技术的公路工程项目建设管理系统以实现公路
通用处理器以时间换取处理问题的灵活性,专用处理器效率高但灵活性差,可重构计算技术为传统通用处理器和专用处理器提供了一个非常有价值的发展方向。它补充了通用处理器和专
目前,云计算由于有维护容易,成本低廉,部署灵活,服务可靠等特点受到国内外学者和企业的广泛关注。但是随着云计算应用技术的不断发展,安全问题逐渐浮出水面,并且成为了阻碍云
  本文的主要研究工作包括:在研究了软件开发质量管理理论的现状,和国内外现有的软件开发质量管理工具的优缺点的基础上,提出了基于工作流和Agent的软件开发质量管理提升系统:
嵌入式系统在迅速发展,被应用于生活中的各个方面。要构建一个嵌入式系统,需要进行硬件选择、软件选择,然后根据功能进行模块设计、模块实现等等。汽车电子就是嵌入式系统一个很
云计算与社交网络在技术上的不断成熟和生活中的广泛应用,为社交云的提出和发展奠定了坚实基础。作为一种虚拟社交应用模式,其目的在于整合社交网络中的用户资源,利用用户间
对于一个分类问题,分类之前我们必须首先对被分类事物进行特征提取,再根据特征来实现其分类。而无论用哪种手段哪种方法提取的特征值一般情况下都是没有明确界限的、模糊的,
本文对签字管理的特点和要解决的关键问题进行了详细分析,并参照WFMC工作流的框架结构设计了一种基于工作流的签字管理系统实现方案。 通过对签字过程进行分析,将签字过程