基于Hive on Spark的列式存储性能分析和优化研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:qq273683019
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对于传统的数据存储方案,一般都使用行式存储引擎进行存储,通过对比行式存储引擎的缺点,相应的列式存储引擎具有更好的优势进行存储。通过列式压缩具有比行式存储具有更高的压缩比率,通过获取指定列数据可以减少更多IO操作,这些优势对于存储海量数据来说具有更大的吸引力使用列式存储更能体现其优势,性价比也更好。基于此,比较流行使用的Orc和Parquet列式存储文件应运而生。为了更好的对该列式存储进行优化,在Hive on Spark环境中,通过TPC-DS基准测试框架生成相关的数据,对比生成相同数据量的Orc和Parquet列式存储数据。在生成数据的过程中,Orc使用不带有任何压缩的编码方式进行数据获取,而对于Parquet存储,分别采用行程编码和字典编码进行数据压缩,最后获取各自生成的数据量大小。对比前后两者的数据量大小,通过压缩后的数据量看是否能够提高数据的存储效率,确定Orc的优化方案,对Orc列式存储的重新读写进行设计并添加相应的编码方式进行设计,最后通过实验确定优化前后的区别。通过对Orc列式存储的优化设计,同样在生成数据量的过程中,分别指定生成Orc和Parquet的数据存储格式,此时不同的地方在于生成Orc的方式采用行程编码和字典编码。对比之前的数据存储效果,Orc优化后的数据存储能够获得比较大的提升,因此对于相同类型的列数据采用一定的编码方式确实可以提高磁盘的存储性能。
其他文献
肝脾T细胞淋巴瘤(hepatosplenic T cell lymphoma,HSTL)比较少见,只占外周T细胞淋巴瘤的5%,因其具有独特的形态学、免疫表型及临床特征,1994年REAL分类将其作为暂定亚型[1],W
俄罗斯法治国家的理念与思想最早萌生于18世纪彼得一世改革时期,在19世纪60年代俄国废除农奴制后,随着自由主义思想的传播而获得了长足发展,到1917年前后基本定型.俄国早期的
近年来,我国快递业飞速发展,快递业运输量、包裹量也随之上升,环境污染问题严峻。我国快递业绿色物流还处于发展的初级阶段,通过分析快递业绿色物流发展问题,提出完善快递业
静压预应力高强管桩在高层建筑中的应用能有效提升此类建筑的质量并保障其安全性。为了确保这一结构能发挥出预期功效,本文将首先针对其应用过程中的优点进行简单论述,进而在
《黄河大合唱》是词作家光未然的代表作品之一,它以文学作品的形式诞生,历经几十年的传承,已经成为一部经久不衰的经典。作为一部传唱七十余年的优秀作品,追根溯源在于其本身
通过显微镜观察对大丽轮枝黄萎病菌株进行初步分类,并对该菌种轮枝状分生孢子梗的形态进行详细描述,确认了微菌核的存在。筛选出快速鉴定该菌种的特异性引物Vd3/Vd4。同时,利
由于过量活性氮输入导致河口近岸氮循环过程被严重干扰,造成水体富营养化、有害藻类赤潮和近海低氧区等一系列生态环境问题频繁发生,硝态氮削减途径研究已然成为当今国际河口海岸科学研究领域内的热点。硝酸盐异化还原过程(反硝化、厌氧氨氧化(Anammox)及硝酸盐异化还原为铵(DNRA))作为氮循环的重要环节,在氮素的生物地球化学循环中起着重要作用。反硝化和Anammox过程可以将硝态氮或者氨氮转化为氮气,是
岑家湾地点的石制品埋藏在下泥河湾层棕红色粘土中,地质时代属早更新世,文化层可能低于小长梁和东谷坨,是泥河湾层内发现的又一处较重要的旧石器地点。岑家湾的石器仅刮削器
预应力混凝土管桩具备承载力高,造价低廉等诸多优势被广泛应用于桥梁工程。本文从试验及数值模拟两方面对单桩承载力研究,通过试验与模拟数据对比分析得出以下几点结论:采用压
由于自然改造的持续,地貌形态复杂,判断发育过程中的冲积扇是否经历过构造作用,一直是活动构造研究中的难点之一。近年来发展起来的无人机航空摄影测量技术在构造地貌数据采