论文部分内容阅读
数据仓库可以帮助企业快速而正确的做出决策,它提供了一种有效的访问这些数据的方法,有统计资料表明,企业数据每18个月翻一番,企业在海量数据的包围之中,倘若只利用传统的数据库MySQL、Oracle构建数据仓库,会出现诸如:数据库性能、资源、主机、网络等多种问题。海量数据的出现,数据的指数级增长向世界互联网巨头Google、Yahoo、Amazon和Microsoft等这些处于市场领导地位的公司提出了挑战。它们需要分析TB级和PB级的海量数据以发现有价值的信息推荐给那些有潜在需求的人群,使得Hadoop分布式/并行处理技术得到快速的发展,Hadoop平台的数据仓库Hive也被用于构建它们的数据仓库,来解决单独运用传统的关系型数据库构建数据仓库平台所遇到的问题。现有的工具正变得无力处理如此大的数据集,Google率先推出了MapReduce编程模型,这是Google公司为了在廉价的计算机集群上来存储并处理PB级的数据而提出的一种解决方案。企业拥有数据指数级的增长,以及Hadoop生态系统的不短完善,使得用Hadoop平台构建数据仓库得到了较快的发展。随着企业数据量的日益增长,特别是信息时代的到来,移动设备、PC以及物联网等的迅速发展,各领域企业所需维护的数据呈现爆发式增长,对这些数据进行分析主要是依赖企业已经创建的数据仓库。现有单独依靠关系型数据库构建的数据仓库不足以支撑海量数据下的存储、处理以及分析。本文针对现有这种类型的数据仓库的不足,在原有关系型数据仓库的基础之上,提出基于Hadoop平台的数据仓库,以为了更好的利用传统数据库计算性能以及Hadoop平台处理海量数据的能力。而Hive是基于Hadoop的数据仓库平台,它是互联网领域应用最为广泛的开源数据仓库,由于它在扩展性和容错性方面有强大的优势,现已被各大互联网公司使用,以构建其数据仓库,有着较好的发展前景以及使用价值。本文运用Hadoop平台构建了一个异构型的数据仓库,在此基础之上,对数据仓库的模型进行了研究,设计了一种混合型的数据仓库体系架构,同时对异构数据平台之间数据的同步做了相关的探索。