大数据存储优化及快速检索技术研究

来源 :电子科技大学 | 被引量 : 8次 | 上传用户:allans
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
HBase是存储海量非结构化数据的数据库,在主键检索时具有较高的性能,但其在非主键检索时只能进行全表扫描,效率极其低下,且HBase对SQL查询语句支持较差。根据项目数据集的格式、项目对数据集检索的需求以及项目实时性目标,对以HBase为主数据库的存储与检索框架的设计与该框架性能的改进是本文的工作重点,其主要工作如下:(1)设计了LBase+IHive存储与检索框架。LBase存储层结合了HBase与Lucene,面对较大数据量时可兼顾稳定性与实时性,存储层数据分类存储,实时数据存入Lucene,历史数据存入HBase。IHive检索层结合了Hive和Impala,数据量较少时通过Impala检索减少了通过Hive检索启动MapReduce的延时,数据量较大时通过Hive检索避免了通过Impala检索的内存溢出、容错机制严格等问题。(2)设计了HBase二级索引。HBase数据记录的主键RowKey是由循环程序生成的前缀字段与项目数据集最常用的IP字段和时间字段拼接而成。根据该RowKey,HBase二级索引的索引键设计为由单节点中前缀最小值、组合索引标识符和RowKey拼接而成的字段,保证了索引与数据逻辑上分离。二级索引与相应数据记录存放在同一张表中,索引的值和数据记录的值存放在不同列族中,保证了索引与数据物理上分离。(3)将拓扑感知算法运用到LBase+IHive存储与检索框架中。拓扑感知算法将数据副本根据相关性动态分布在集群,减少了MapReduce处理流程中不必要的数据副本移动所带来的多余的网络流量开销,从而优化数据副本通信开销,降低时间延迟。最后本文实现了原型系统,并对其进行多组性能实验。本文使用数据生成器生成日志数据,对每一步改进的内容设计相应实验,实验过程中记录数据并分析实验结果。最终,实验结果证明本文做出的改进方案能够达到项目中大数据存储及检索的预期目标。
其他文献
火警及消防设施的定位是消防安全管理工作的一项重要内容,是智慧消防系统的重要组成部分。地理信息系统(GIS)作为一种有效的地理信息技术,以其强大的空间数据库管理功能、空
研究性教学是指师生共同参与的,以问题为中心,以培养学生的创造精神和创造能力为目的,通过探索、讨论等教学方法实施的教和学。在高职计算机应用基础课程教学中,教师要从教学
我国军转民经历了一个艰苦创业的过程,遇到过不少困难和曲折,但主流是成功的,是闪耀着辉煌业绩的历程。经过25年的努力,基本实现了由单一军品型向军民结合型转变,形成了一批
本文提出了一种测量电力系统频率的简单方法。此方法基于曲线拟合技术.并且利用了母线电压的采样值。文中陈述了这一新方法的数学推导,讨论了影响算法精度的主要参数.基于该
<正>2008年1月16日,国家批准实施《广西北部湾经济区发展规划》,经过十年砥砺发展,北部湾一跃成为广西经济增长最快、活力最强、成长性最好的发展区域,成为我国沿海经济发展
期刊
随着统一消费市场的日益细化和人们消费观念的转变,现代包装个性化设计呈现包装容器造型设计艺术化、装潢设计传统化、结构设计科学化和人文化等个性化设计倾向,这一现象背后
智能交流接触器作为一种新型控制电器,实现了接触器起动、吸持、分断全过程动态控制。在智能交流接触器研究基础上,研制新型的电弧特性检测装置,该装置采用双芯片控制方式,实
创新是一个民族发展的源泉,同时也是推动时代向前发展的不竭动力,而大学生作为国家的建设者,更应该要承担起创新创业的重任,争取在实现自我价值的同时,也能促进国家的稳定发
公司简介北京施达优技术有限公司致力于为企业动态复杂生产现场计划调度提供解决方案.为增强企业竞争力为目标.率先在中国推广制造业先进计划排程(LS—APS)软件技术。
军火贸易具有很强的政策性。它与一国的政治、经济、军事和外交都有着密不可分的关系。作为世界上惟一的超级大国,美国不仅经常对其他国家的军火贸易设置壁垒、横加干预,而且