基于HBase的大规模数据存储解决方案的设计和实现

被引量 : 0次 | 上传用户:y51211
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着互联网以及信息网络技术的迅猛发展,人们迎来了海量数据的时代,每天都面临着大量的数据信息,个人通过互联网产生的数据也在呈爆炸式增长。从传统的文本数据发展到文档、视频、音频以及图片等多种数据类型,这种从结构化数据到非结构化数据种类的转变,对个人数据的存储也提出了新的要求,同时给互联网数据的存储管理带来巨大的挑战。传统的关系型数据库只提供对结构化数据的存储及管理,对于海量的非结构化数据难以应对,所以新兴的非关系型数据库技术为海量、异构的非结构化数据存储带来了契机。本文针对瘦客户端用户海量数据的存储需求,提出了海量数据的分布式存储解决方案,设计实现了基于HBase的大规模数据存储系统,解决了各类海量数据的统一存储问题。首先,根据瘦客户端大规模数据存储的需求,改进了网络磁盘应用,并实现了将数据从原有数据库到HBase数据库的迁移。利用HBase数据库为瘦客户端用户在云端分配一个私人存储空间,瘦客户端用户可以进行各种文件的上传、下载操作,通过网络磁盘将用户数据转移到云端统一存储和管理。其次,云端数据的存储采用HBase集群的方式,利用HBase这种新型的数据库的列式存储以及可伸缩性,在低廉的硬件环境中搭建高效的存储集群等特性,实现对用户数据的分布式存储。通过将多媒体瘦客户端的网络磁盘用户的存储空间挂载到HBase分布式集群中,实现对用户数据的高效存储。再次,针对HBase集群在存储大规模数据时存在的一些弊端进行改进,主要对数据插入和读取的有关机制进行了优化。针对用户存储的不同大小的数据,分别进行存储,由于大数据在存储的过程中,很快就会使存储它的Region达到分裂的阈值,这样会频繁的触发它的分裂和合并操作,而进行这种操作的过程中会阻塞用户的写入进程,从而影响集群的插入性能。通过将大数据单独放在一个独立的列族实现对大数据的高效管理,同时改进数据存储中的Flush、Compactin机制。对于HBase自身的日志备份过程,通过引入远程日志过程,确保在数据存储可用性和持久性的前提下,实现对系统时间性能的提高。最后,针对设计的大规模数据存储解决方案进行了性能测试,通过实验测试,本解决方案是切实可行的,并且无论是小数据还是大数据的读写都较HBase自身的方案在时间性能上有显著的提升。
其他文献
为评估大亚湾黑鲷(Sparus macrocephalus)的生态容量,根据2015年渔业资源和生态环境调查数据利用Ecopath with Ecosim 6.5(EwE)软件构建了由26个功能组组成的大亚湾Ecopath模
氨基酸是重要的生物活性物质,是组成蛋白质的基本结构单位,被认为是理论研究中最重要的生物模型化合物。通过对水溶液中氨基酸的各种热力学性质研究,可以获得各种氨基酸在水溶液
法律与道德的关系问题是法学领域的一个不可回避的,且具有重要意义的法哲学问题。中西方基于各方面的差异,在处理法律与道德的关系的问题上秉持不同的态度。本文通过解构、比
由于物流集成网络能够规划物流作业流程,整合物流资源,从而提高物流运作效率,发挥物流规模化优势,因此,本文在集成物流网络的背景下,探讨路径优化问题,在传统的Dijkstra算法
<正> 紫荆遗址位于陕西省商县城东南约七公里处,紫荆村附近的丹江南岸第二级阶地上。该遗址于1953年发现,1977-1978年商县图书馆、西安半坡博物馆等单位进行了首次发掘。为了
利用等时地层格架内建立的火山活动事件与海洋古生产力及氧化还原环境的对应关系,对上扬子区奥陶系五峰组—志留系龙马溪组沉积期火山活动及其对页岩有机质富集程度的影响进
知识分享是知识管理研究的核心问题。深入探讨了知识分享的障碍及其对组织的不利影响,提出克服知识分享困境的新思路:建立交互记忆系统。组织应贯彻不求所有,但求所用的原则,通过
针对逆向工程中分段点无法精确提取导致边界约束信息不准确,进而造成截面特征重构结果不理想的问题,提出一种高精度截面数据重构方法。根据截面数据的离散曲率信息初步提取分
本文以高速60吨冲床装箱工程为例,通过论述装箱工程功能和要求,为实现自动化方式替代简单人工方式装箱,降低作业者劳动强度,设计和开发了基于PLC的冲床自动装箱系统。本文首
<正>我院应用紫外线照射和充氧自体血回输法治疗呼吸系统疾病40例。经过10—15次的治疗,临床治愈为35人,好转4人,无效1人,取得了较满意的效果,其机理认为紫外线对血中病原微
会议