基于HBase的嵌套式数据存储系统设计与实现

被引量 : 0次 | 上传用户:tsyhome
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网时代的来临,数据量迅猛增长,如何合理有效地存储和利用大数据显得尤为重要。针对大数据对于扩展能力及数据格式的需求,业界提出了NoSQL数据库的解决方案。NoSQL采用了分布式的存储架构和无模式的存储格式,以满足存储过程中容量不断增长的需求,同时更加灵活地为用户业务变更提供方便。但是正是由于NoSQL数据库在这些方面的设计调整,减弱了数据在存储过程中的关联性。导致使用NoSQL数据库进行大数据分析时,数据读取速度慢,查询过程更为复杂。针对NoSQL关于数据分析能力的不足,结合Dremel论文提出的嵌套式数据存储格式的思想,本文提出了基于HBase的嵌套式数据存储系统,来解决大数据存储和分析过程中遇到的问题。本文主要工作如下:1)基于HBase的嵌套式数据存储系统采用了HBase原有的分布式存储架构。继承HBase扩展性好、可用性高的特点。使用HMaster对于数据存储系统进行管理操作,利用HRegionServer对于每个子节点上的数据存储进行管理。2)对于HBase按列存储格式进行格式转换。重构HRegion类,添加数据转换模块,将HBase原有列式存储格式转换为嵌套式数据存储格式。利用基于Dremel实现的嵌套式数据存储文件格式Parquet对于数据进行持久化工作。3)实现基于HBase的嵌套式数据存储系统的存储和读取模块。完成基于HBase的嵌套式数据存储系统的读写功能。并强化了读取模块中的查询功能。4)通过数据分析实验验证基于HBase的嵌套式数据存储系统在数据分析过程中的性能提升。利用MapReduce计算框架对存储数据进行分析,其结果显示基于HBase的嵌套式存储系统按列查询性能比原HBase存储系统提升三分之一左右。当存储表中列数目增加时,基于HBase的嵌套式存储系统耗时增加更少。基于HBase的嵌套式数据存储系统可以满足对于大数据读写性能的要求,同时在进行大数据分析的过程中,减少了对于不必要数据的读取开销,降低了磁盘和CPU的损耗,加快了大数据的分析速度。
其他文献
孕马血清促性腺激素的主要作用是促进母牛卵巢、卵泡的发育,成熟排卵及黄体生成。对于公牛,主要作用于睾丸的曲细精管,促进精子的形成,治疗弱精、死精和性欲不强。本文从PMSG
随着经济社会的发展,网购已经日益成为人们生活中不可或缺的一部分,网购的日益盛行,使得人们对快递服务的需求日益增加。然而现实生活中,快递服务的满意情况难以让人满意。淘
随着我国金融行业的蓬勃发展,资产配置越来越受到国内投资者重视,研究表明合理的资产配置可以很好的降低风险。在当今复杂的世界经济形式下,研究怎样进行有效的资产配置很有
通过对安太堡露天矿卡车轮胎损耗的原因分析,找出了造成损耗的诸多原因;制定了防控措施,不仅有效控制了轮胎非正常消耗,而且为露天矿如何管理好、使用好、保护好轮胎,保障安
标准化规模养殖可以更新畜牧业的发展方式和发展方向,改善原有的畜牧业发展基础,不断提高畜牧业发展的科学规范性,从而保证畜牧业整体生产水平的提高.文中阐述利用标准化规模
冷轧带钢是钢铁工业的高端产品之一,广泛应用于汽车、家电、建筑等行业,板形质量受到国内外冷轧带钢生产单位持续的高度关注,一直是企业与科研人员努力提升的重要任务。以218
纤维含量定量分析通常采用化学溶解法,其检测周期长(约需2~3 d),难以适应我国纺织品对外贸易的快速发展,也影响了纺织品的生产贸易周期.采用不同烘干方法,以减少常规纤维含量检
我国现行的国家赔偿法是在1994年通过的基础上于2012年第二次修订、2013年1月1日正式施行的,国家赔偿法的制定以及后面的两次修订都为公民、法人和其他组织遭受公权力机关侵
本研究以内蒙古锡林浩特市蒙古族中学初中部的蒙语授课中学生为调查对象,运用个案研究方法,考察内蒙古锡林浩特地区蒙汉双语教育背景下英语教育的开展情况。试图揭示初中教育
对离心泵叶轮和蜗壳之间的水力相互作用进行了理论分析。考虑了叶轮叶片不能准确地引导流体流过叶轮,而且对蜗壳中的流动进行了准一维处理.理论模型确定了叶轮出口的流量扰动