基于HBase的大规模数据存储解决方案的设计和实现

被引量 : 0次 | 上传用户：y51211

【摘要】

：

伴随着互联网以及信息网络技术的迅猛发展,人们迎来了海量数据的时代,每天都面临着大量的数据信息,个人通过互联网产生的数据也在呈爆炸式增长。从传统的文本数据发展到文档

【作者】

：

马翠云

【发表日期】

：

2015年期

【关键词】

：

非关系型数据库 HBase 数据存储

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

伴随着互联网以及信息网络技术的迅猛发展,人们迎来了海量数据的时代,每天都面临着大量的数据信息,个人通过互联网产生的数据也在呈爆炸式增长。从传统的文本数据发展到文档、视频、音频以及图片等多种数据类型,这种从结构化数据到非结构化数据种类的转变,对个人数据的存储也提出了新的要求,同时给互联网数据的存储管理带来巨大的挑战。传统的关系型数据库只提供对结构化数据的存储及管理,对于海量的非结构化数据难以应对,所以新兴的非关系型数据库技术为海量、异构的非结构化数据存储带来了契机。本文针对瘦客户端用户海量数据的存储需求,提出了海量数据的分布式存储解决方案,设计实现了基于HBase的大规模数据存储系统,解决了各类海量数据的统一存储问题。首先,根据瘦客户端大规模数据存储的需求,改进了网络磁盘应用,并实现了将数据从原有数据库到HBase数据库的迁移。利用HBase数据库为瘦客户端用户在云端分配一个私人存储空间,瘦客户端用户可以进行各种文件的上传、下载操作,通过网络磁盘将用户数据转移到云端统一存储和管理。其次,云端数据的存储采用HBase集群的方式,利用HBase这种新型的数据库的列式存储以及可伸缩性,在低廉的硬件环境中搭建高效的存储集群等特性,实现对用户数据的分布式存储。通过将多媒体瘦客户端的网络磁盘用户的存储空间挂载到HBase分布式集群中,实现对用户数据的高效存储。再次,针对HBase集群在存储大规模数据时存在的一些弊端进行改进,主要对数据插入和读取的有关机制进行了优化。针对用户存储的不同大小的数据,分别进行存储,由于大数据在存储的过程中,很快就会使存储它的Region达到分裂的阈值,这样会频繁的触发它的分裂和合并操作,而进行这种操作的过程中会阻塞用户的写入进程,从而影响集群的插入性能。通过将大数据单独放在一个独立的列族实现对大数据的高效管理,同时改进数据存储中的Flush、Compactin机制。对于HBase自身的日志备份过程,通过引入远程日志过程,确保在数据存储可用性和持久性的前提下,实现对系统时间性能的提高。最后,针对设计的大规模数据存储解决方案进行了性能测试,通过实验测试,本解决方案是切实可行的,并且无论是小数据还是大数据的读写都较HBase自身的方案在时间性能上有显著的提升。

其他文献

基于Ecopath模型的大亚湾黑鲷生态容量评估

为评估大亚湾黑鲷(Sparus macrocephalus)的生态容量,根据2015年渔业资源和生态环境调查数据利用Ecopath with Ecosim 6.5(EwE)软件构建了由26个功能组组成的大亚湾Ecopath模

期刊

Ecopath模型生态容量黑鲷大亚湾增殖放流食物网

蛋白质模型分子体系溶液热力学研究

氨基酸是重要的生物活性物质，是组成蛋白质的基本结构单位，被认为是理论研究中最重要的生物模型化合物。通过对水溶液中氨基酸的各种热力学性质研究，可以获得各种氨基酸在水溶液

学位

氨基酸甲醇乙醇丙醇丁醇环己酮1.4-二氧六环四氢呋喃吡啶稀释焓混合焓焓相互作用焓对作用系数

中西方法律与道德关系形成路径比较研究

法律与道德的关系问题是法学领域的一个不可回避的,且具有重要意义的法哲学问题。中西方基于各方面的差异,在处理法律与道德的关系的问题上秉持不同的态度。本文通过解构、比

期刊

法律道德路径比较

基于集成物流网络的路径优化问题探究

由于物流集成网络能够规划物流作业流程,整合物流资源,从而提高物流运作效率,发挥物流规模化优势,因此,本文在集成物流网络的背景下,探讨路径优化问题,在传统的Dijkstra算法

期刊

集成物流网络Dijkstra算法路径优化烟草商业企业

1982年商县紫荆新石器时代遗址的发掘

<正> 紫荆遗址位于陕西省商县城东南约七公里处,紫荆村附近的丹江南岸第二级阶地上。该遗址于1953年发现,1977-1978年商县图书馆、西安半坡博物馆等单位进行了首次发掘。为了

期刊

夹砂陶附加堆纹红陶钵新石器时代遗址

上扬子区奥陶系五峰组—志留系龙马溪组沉积期火山活动对页岩有机质富集程度的影响

利用等时地层格架内建立的火山活动事件与海洋古生产力及氧化还原环境的对应关系,对上扬子区奥陶系五峰组—志留系龙马溪组沉积期火山活动及其对页岩有机质富集程度的影响进

期刊

页岩有机质富集程度火山活动层序地层奥陶系五峰组志留系龙马溪组上扬子区斑脱岩

知识分享的困境及突围策略研究

知识分享是知识管理研究的核心问题。深入探讨了知识分享的障碍及其对组织的不利影响，提出克服知识分享困境的新思路：建立交互记忆系统。组织应贯彻不求所有，但求所用的原则，通过

期刊

知识分享知识分享困境知识分享障碍知识分享不利影响交互记忆系统

G~1连续的截面数据高精度重构方法研究

针对逆向工程中分段点无法精确提取导致边界约束信息不准确,进而造成截面特征重构结果不理想的问题,提出一种高精度截面数据重构方法。根据截面数据的离散曲率信息初步提取分

期刊

逆向工程截面特征分段点精准重构边界约束

基于PLC的冲床自动装箱系统设计

本文以高速60吨冲床装箱工程为例,通过论述装箱工程功能和要求,为实现自动化方式替代简单人工方式装箱,降低作业者劳动强度,设计和开发了基于PLC的冲床自动装箱系统。本文首

学位

自动装箱PLC控制梯形图

紫外线照射和充氧自体血回输治疗呼吸系统疾病40例报告

<正>我院应用紫外线照射和充氧自体血回输法治疗呼吸系统疾病40例。经过10—15次的治疗,临床治愈为35人,好转4人,无效1人,取得了较满意的效果,其机理认为紫外线对血中病原微

会议

基于HBase的大规模数据存储解决方案的设计和实现

与本文相关的学术论文