基于Hadoop平台构建数据仓库关键技术的研究

来源 :华北电力大学 | 被引量 : 0次 | 上传用户:smsyzgc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据仓库可以帮助企业快速而正确的做出决策,它提供了一种有效的访问这些数据的方法,有统计资料表明,企业数据每18个月翻一番,企业在海量数据的包围之中,倘若只利用传统的数据库MySQL、Oracle构建数据仓库,会出现诸如:数据库性能、资源、主机、网络等多种问题。海量数据的出现,数据的指数级增长向世界互联网巨头Google、Yahoo、Amazon和Microsoft等这些处于市场领导地位的公司提出了挑战。它们需要分析TB级和PB级的海量数据以发现有价值的信息推荐给那些有潜在需求的人群,使得Hadoop分布式/并行处理技术得到快速的发展,Hadoop平台的数据仓库Hive也被用于构建它们的数据仓库,来解决单独运用传统的关系型数据库构建数据仓库平台所遇到的问题。现有的工具正变得无力处理如此大的数据集,Google率先推出了MapReduce编程模型,这是Google公司为了在廉价的计算机集群上来存储并处理PB级的数据而提出的一种解决方案。企业拥有数据指数级的增长,以及Hadoop生态系统的不短完善,使得用Hadoop平台构建数据仓库得到了较快的发展。随着企业数据量的日益增长,特别是信息时代的到来,移动设备、PC以及物联网等的迅速发展,各领域企业所需维护的数据呈现爆发式增长,对这些数据进行分析主要是依赖企业已经创建的数据仓库。现有单独依靠关系型数据库构建的数据仓库不足以支撑海量数据下的存储、处理以及分析。本文针对现有这种类型的数据仓库的不足,在原有关系型数据仓库的基础之上,提出基于Hadoop平台的数据仓库,以为了更好的利用传统数据库计算性能以及Hadoop平台处理海量数据的能力。而Hive是基于Hadoop的数据仓库平台,它是互联网领域应用最为广泛的开源数据仓库,由于它在扩展性和容错性方面有强大的优势,现已被各大互联网公司使用,以构建其数据仓库,有着较好的发展前景以及使用价值。本文运用Hadoop平台构建了一个异构型的数据仓库,在此基础之上,对数据仓库的模型进行了研究,设计了一种混合型的数据仓库体系架构,同时对异构数据平台之间数据的同步做了相关的探索。
其他文献
老年人权益保障法修订草案24日提请全国人大常委会二次审议。为充分体现社区在养老服务中的作用,修订草案增加了有关社区养老服务的规定。
目的对临床检验中不合格血液标本的原因和措施进行分析。方法资料选自2012年7月-2013年4月期间送检我院的1125份中112例不合格血液标本,所有血液标本均进行重新核查,并分析其不
采用文献资料法、问卷调查法和数理统计法等方法,对张家口崇礼滑雪场的大众滑雪者的基本情况进行调查分析,为推动滑雪运动在我国的普及和提高,促进我国大众滑雪产业的快速发
纪录片是在客观的镜头下展现社会生活中真人真事的一种艺术形态,它最本质的特点是“求真”。而作为艺术作品,又要求着纪录片要在纪实性和艺术性之间达成和谐统一。纪录片有着
【正】 (一) 在古代的文学史上,我国是个“诗国”。早在两千五百年前,就出现我国第一部诗歌总集——《诗经》。春秋战国时代,“不学诗,无以言”,列国间交往,经常引用《诗经》
目的总结百草枯中毒患者急救效果的临床特征,并比较并发症对患者预后的影响。方法回顾性分析在我院进行百草枯中毒急救的57例患者,分析不同因素对患者预后影响。结果 57例患
<正>由西安交通大学国际信息哲学研究中心和国际信息科学学会(ISIS)联合主办的首届国际信息哲学研讨会于2013年10月18—21日在西安交通大学举行。此次会议由国际计算与哲学学
20世纪有四部《伤寒论》翻刻本、影印本或排印本在中医界有较大影响,它们是1912年武昌医馆翻刻本、1923年恽铁樵影印本、1955年重庆中医学会《新辑宋本伤寒论》、1959年南京
目的分析宫外孕应用MTX联合米非司酮的疗效与安全性。方法资料随机选自2012年5月—2013年11月本院确诊宫外孕且自愿接受保守治疗的患者112例,随机平均分为对照组和研究组,对
该文以汽车起重机起升机构为研究对象,首先利用AMESim软件建立了起升机构液压系统模型,然后在MATLAB/GUI中设计了起升机构可视化界面,并通过编程实现了AMESim和MATLAB/GUI的