基于Hadoop平台的海量数据查询分析系统的性能优化研究

被引量 : 12次 | 上传用户:chongai2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今是一个海量数据的时代,不论是电力、通信还是金融行业,每天都在产生着大量的数据。全球每人每年将会产生至少200GB的数据,截止2020年全球数据量将达到40ZB。通过什么样的工具或手段可以对数据进行快速的挖掘分析,看到数据的本质,找到其中的商机,是人们亟待解决的一个问题。Hadoop平台作为海量数据分析常用工具,在现代生活中的作用越来越重要。作为Hadoop生态体系下的数据仓库软件,Hive在数据挖掘与分析中的作用越来越明显。Hive是一种通用的海量数据存储仓库,没有优化过的Hive数据仓库受到Hadoop平台性能的限制,在数据量不断增大的情况下,其查询效率将成指数下降。我们可以通过对Hive进行优化,优化Hive的查询效率以及数据存储空间,用以提高的人们的工作效率。本文通过对Hive数据表存储格式进行优化,大大提升了Hive的查询效率。本文的创新点主要体现在如下两个方面:第一、本文提出了基于日志分析的Hive的海量数据存储优化策略。基于查询日志可以分析出用户的常用习惯,根据用户常用习惯对Hive系统进行优化,使得优化工作更有目的性和针对性。本文从数据分区优化策略、数据存储格式优化策略、去除冗余数据表和去除冗余字段策略、以及改造字段存储类型等四个角度对Hive存储进行优化。第二、本文就Hive0.9版本中RCFile提出了一种改进方案。通常在Hive的使用过程中,操作人员经常在一个字段很多的表中只查询很少的几个字段,效率很低。在RCFile的基础上,利用其列式存储的特点,并结合HiveO.12版本中ORCFile的对列压缩的特点,本文提出了一种Morcfile的存储格式,用以提高Hive在少字段查询中的查询效率。本文结合国内某金融机构现有的Hive数据仓库用上述方法加以改造。经过测试,优化后的系统在查询速度与磁盘空间利用率上得到了显著的提升。
其他文献
由于在长期的历史发展过程中,在世界范围内曾普遍地存在着男权制的社会制度与文化,一直在社会性别制度乃至整个社会权利关系、社会文化意识的建构中,形成了限制女性以第二性
[目的]研究滇西北高原碧塔海流域湿地保护区不同植被类型条件下的土壤入渗特性及影响因素,为该流域湿地综合治理及保护提供科学参考。[方法]采用双环法进行测定,利用相关分析
目的对比分析IgA肾病采用中医、中西医结合治疗的临床疗效。方法本次研究对象来源于我院中医肾病科2015年7月至2016年7月收治的80例IgA肾病患者,依据治疗方式分组,其中对照组(n=
手机是当今人们日常生活不可或缺的重要的信息传递和接收工具,随着网络运用平台的拓展,手机正在改变着我们的生活方式,手机有着巨大的使用群体和广阔的运用空间。手机游戏也是百
信用卡是社会经济发展到一定阶段的产物,是社会高度文明化的开端的象征。西方国家由于起步较早,到现在信用卡立法已经较为成熟了。我国的信用卡起步比较晚,虽然这二十年来也
伴随着“利润最大化,成本最小化”这条金科玉律,外包在全世界范围内盛行风靡,成为多数企业减压增效的一剂良方。后勤外包的迅速发展和广泛应用在企业的运营和发展中扮演着越来
白藜芦醇是一种植物抗毒素,多存在于葡萄或葡萄制品,例如红酒中。最近多项研究表明,白藜芦醇除了具有延缓衰老、降低氧化压力、防治心血管疾病等作用外,对多种癌症的发生发展过程
为研究钢箱梁正交异性桥面板横隔板与U肋交接处的残余应力分布规律,采用Abaqus有限元软件模拟横隔板的热切割和焊接过程,分析横隔板与U肋交接处热残余应力的分布特征,探讨切
通过对常规矫直机结构进行改进设计,使减速机在较小的结构空间范围内,在整体质量较轻的情况下满足了功率传动需求,且具有结构紧凑、质量轻等优点,效能明显提高。
近几年来,随着我国经济进入高速发展阶段,人才市场高前活跃,但是就业就变得更难了,职业的稳定性也更差了,不断有用人单位抱怨:千辛万苦招聘来的大学毕业生根本无法满足用人需