基于HBase的大数据存储查询技术研究

被引量 : 32次 | 上传用户:ttgxa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在现在的大数据平台上,对非结构化数据的存储需求越来越大,对其数据的读写性能要求也越来越高,传统技术无法满足这些要求。因此本文对大数据处理技术进行研究,选取了以Hadoop为平台的HBase数据库,在HBase的自身之上优化了数据存储系统并拓展了二级索引的功能。针对HBase的数据存储系统,它在导入商品图片、视频信息等这些大对象时,出现严重延迟现象。因此本文对这种情况进行了分析,并设计了存储大对象的存储架构。该框架将大对象数据隔离存储在HDFS上,回避HBase本身的Split和Minor Compaction的机制,减少对HBase中其它数据的读写影响,然后把存储的文件地址更新到HBase大对象列族中,实现大对象的快速查询,接着对大对象数据的列族定制了Flush机制与Compaction机制,以实现对大对象的管理维护。通过对改进的HBase与HBase自身的性能对比,改进的HBase在插入数据时,每条记录仅耗时毫秒级时间,且状态很稳定,在读取速度上也提高了2倍,充分满足了线上实时性的需求。本文另一重点是为HBase拓展了二级索引。由于HBase只支持基于主键的查询,当用户不知主键査询数据时,只能通过全表扫描来获取数据,这种方式效率很低,无法满足实时査询需求。针对这一缺点,本文拓展了二级索引功能。它的实现思想是把建立二级索引的任务分布到各个服务端上,同时保证索引表与对应的主表存储在同一个服务器上,这样查询时只需与对应服务端建立一次连接即可,从而提高了非主键查询速度。通过对增加索引功能的HBase与HBase自身的对比,增加索引功能的HBase虽然在插入数据性能上降低了10%,但是在查询性能上,有了极大的提升。最后在实验室搭建了Hadoop+HBase+ZooKeeper的集群测试环境,利用淘宝某商家的商品信息记录日志文件作为数据源,实现了对改进后的HBase与HBase自身的测试对比,最终得出改进后的HBase在存储和查询性能方面都取得很大的提升。
其他文献
通过对一架服役20多年的退役飞机分解检查,分析搭接件的腐蚀状况,发现搭接件外表面光滑,而搭接面腐蚀很严重。利用三维有限元法分析腐蚀产物的“楔入效应”,得到最大主应力点
基层政府是我国最为贴近百姓、直接服务群众的行政机关,是党和政府与广大人民群众保持密切联系的重要桥梁和纽带。基层公务员是党和国家各项制度、方针、政策的具体执行者,是
无线信道是整个无线通信系统的核心研究内容。无线通信系统在进行外场测试信道环境时,不仅具有容易受气候条件的影响,试验不可重复性等特点,而且还要花费大量的人力、物力和
目的:探讨中药复方益肝康抗肝纤维化的作用机制及药效学配伍意义.方法:分别给正常大鼠及CCl4造模肝纤维化大鼠灌服益肝康及其拆方—丹参小复方(丹参、黄芪、归尾),提取药物血
目的建立稳定的重亚硫酸盐直接测序技术,检测p16基因甲基化状况。方法提取正常人全血基因组DNA.建立起稳定的重亚硫酸盐直接测序平台,利用该技术检测结直肠癌细胞株pl6基因甲基
本世纪以来,各市场经济国家都在积极探索、规划和大力推行企业网站建设。虽然发展很不平衡,但是国际经济全球化导致电子商务发展成为大势所趋,这也是我国电子商务发展的方向
对4种猕猴桃浆(黄心猕猴桃、绿心猕猴桃、红阳猕猴桃、聚香猕猴桃)进行超高压(500MPa,20min)处理,分析超高压处理前后猕猴桃浆中游离酚、结合酚含量及其抗氧化活性变化。结果
波导缝隙阵列天线是在波导金属面上的按照一定的要求开缝所构成的天线。随着毫米波技术的迅速发展,波导缝隙阵列天线由于它自身具有低剖面、体积小、重量轻、效率高、易实现
"怕"是现代汉语的高频词,既是一个高频动词,又有虚词的用法。从上古到现代"怕"的词义处于不断演变中,"淡泊宁静"是其本义,后来"泊"代替了"怕"表"淡泊"义。"怕"表"害怕"义出现于东汉时期,后逐
X射线探测器在安全检察、医学成像、空间探测等众多领域都有广泛应用。作为探测器最重要部分的转换屏,其材料的光转换效率对整个系统起着决定性的作用。在本文中,我们提出了