数据仓库分布式列存储技术研究与实现

被引量 : 7次 | 上传用户:lanqishi1989
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的不断发展和互联网用户的不断增多,互联网的数据近几年呈现爆炸式地增长。互联网数据的急骤增长,使得传统数据库、数据仓库技术面临巨大的挑战,单结点的数据库系统和数据仓库系统往往难以存储和分析海量的数据。而Hadoop则可以通过将廉价的商用计算机组成分布式集群的方式,以极低的成本、极高的扩展性,轻易地解决海量数据存储和分析的难题。这也使得擅长解决大数据而新兴的Hadoop分布式计算平台在两到三年的时间里快速成长、成熟并流行开来。随着数据规模的不断增长,以Hadoop为代表的基于集群的分布式数据处理平台必将成为未来的数据分析和处理的主流。本文分析了分布式系统和数据仓库的基本原理,并对Hadoop原理进行了详细的研究和分析,重点研究了两个核心子项目MapReduce和HDFS的底层的实现机制,并详细分析了基于Hadoop的数据仓库基础架构——Hive的原理、架构及实现。由于Hadoop目前在数据处理时均是以行或行组的形式进行分布式存储,IO瓶颈是影响Hadoop数据处理性能的主要瓶颈,CPU利用率较低,未达到充分利用。同时,列存储技术具有减少查询1O数据量和易于压缩的重要优点。本文将列存储技术和Hadoop分布式计算平台加以结合,设计了基于Hadoop的分布式的列存储技术解决方案。该方案基于HDFS客户端和服务端程序,可利用列存储减少IO量,并利用实时压缩技术进一步减少IO量和提升CPU利用率,提升整个分布式系统的性能。本文首先设计了列存储的分布式存储格式及数据冗余和分布式数据本地化方案,以满足在HDFS上以列存储的方式存储数据并充分利用了MapReduce的本地计算能力。由于MapReduce’‘移动计算比移动数据更划算”的设计思想,数据本地化成为了分布式列存储的核心问题,本文通过修改HDFS的客户端和服务端的程序,解决这一问题。同时,本文设计了一种基于冗余字符串的两阶段实时数据压缩算法,以满足具有一定压缩密度的高速实时列存储数据块压缩和解压。本文将该算法封装在列存储文件格式的实时压缩和解压缩模块中,并与其它相似算法进行了测试和对比。结果显示该算法具有较高的效率和较高的压缩率。本文使用70个结点的商用服务器构成的Hadoop集群测试了分布式列存储系统的性能,并做了分析。实验结果表明,基于Hadoop的分布式列存储系统具较好的IO性能和合理的CPU利用率,适用于查询密集型的应用。最后,本文将列存储文件系统应用于Hive数据仓库基础架构的文件存储格式。
其他文献
<正>二维码(Two-dimensional code),又称二维条码,它是用特定的几何图形按一定规律在平面(二维方向)上分布的黑白相间的图形,是所有信息数据的一把钥匙。在现代商业活动中,可
目的系统评价部分脾动脉栓塞术(PSE)和脾切除术治疗肝硬化脾功能亢进的疗效。方法计算机检索2005年1月1日-2015年5月30日Medline、Embase、Web of Science、中国知网、万方数
<正> 阿克苏诺贝尔是世界上最大的羧酸类螯合剂生产商,被广泛应用于工业及民用产品中,其中包括清洁剂。螯合剂就是那些能像用手紧握住一个网球一样的在水中绑住金属离子的分
进入夏季,水培植物成为许多园艺爱好者的首选。作为家庭园艺中的一种常见形式,水培植物由于不使用栽培基质、病虫害少、养护简单等优点,受到消费者青睐。如今水培植物市场如
报纸
随着报刊、广播、电视等传统媒体的日益衰落,以互联网、手机等媒体为突出代表的新媒体欣欣向荣,构建了现代社会"万物皆媒"的信息环境。信息技术的不断突破使得数据传输音频、
论文主要研究在传统环锭纺纱机上将集聚纺与赛络菲尔纺技术相结合的新型纺纱方法。集聚纺与赛络菲尔纺无论是从纺纱方式与成纱质量上都各具特点,集聚赛络菲尔纺结合两者的优
赫尔辛基7月2日消息,ECHA向欧盟委员会提议将第六批15项SVHC物质加入REACH授权清单。第六批拟进入REACH授权程序的15项物质详情如下。
期刊
巨细胞病毒(CMV)感染为异基因造血干细胞移植患者常见并发症之一。letermovir为CMV DNA末端酶抑制剂,由默克制药公司研发,于2017年11月获美国食品和药物管理局批准用于预防CM
随着环境污染、资源耗竭等问题在我国的日益凸显,以生态服务为主要功能的公益性森林资源的地位和作用也相应的被提升到一个新的高度,但是由于其非营利性特征的存在,加之我国林业
多囊卵巢综合征与无排卵型功能失调性子宫出血在临床上有相似的症状,易被漏诊或误诊,进导致不良后序事件的发生。文章从两者的关系、目前的诊断、内分泌方面的发病机制、激素