基于HBase和内存数据库的索引和查询技术研究与系统实现

被引量 : 0次 | 上传用户:mahsdbxc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网应用的规模化、普及化,计算机技术的不断发展,互联网产生的数据正在高速增长且在可见的未来内日益庞大。针对海量数据的存储、查询和挖掘处理成为了目前的热点问题。Google公司公开发表的三篇云计算领域的经典论文后,人们开始重新思考海量数据的存储方式,非关系型数据存储系统开始逐渐成为大数据时代数据存储的主流。HBase是Apache社区Hadoop项目下参考BigTable实现的一个开源子项目,是一个典型的基于列族的非关系型数据库。在实际应用中,HBase可以高效支持以主键为条件的查询请求,在面对以非主键为条件的查询请求时则需要对全表进行扫描,效率低下,难以满足一些需要快速响应的应用场景。在传统关系数据库领域,面对这样的问题,通常会借助索引来解决。为了提高查询响应时间,减少查询开销,人们开始研究在HBase上建立非主键索引的方法。本文的主要研究工作分为以下三个部分:(1)在分析顺序索引存储模型与哈希索引存储模型的基础上,面向遵循着80/20法则的特定应用场景,借鉴层次化存储体系结构思想,提出一种支持HBase索引存储的分层式索引存储模型。该模型主要分为两层:持久存储层,用来存储HBase用户表的所有索引数据;索引缓存层,用来存储部分被频繁访问的索引数据,作为持久存储层的缓存以加速查询。(2)研究实现分层式索引存储管理机制,并通过设计使分层式索引存储系统具有良好的可扩展性和高可用性。此外,针对海量数据场景下使用LRU的不足,提出一种对热数据敏感的缓存替换策略,该策略使用指数平滑的方法来有效地预测索引热度。(3)研究实现基于分层式索引系统的快速数据查询方法,主要支持单值查询和范围查询。并针对范围查询中存在通信开销较大等问题,提出对范围查询的改进方法。本文通过与LRU的对比实验,验证了对热数据敏感的缓存替换策略的有效性;通过扩展性实验分析验证了分层式索引系统的数据可扩展性和节点可扩展性;并通过与同类索引系统的对比,验证了分层式索引系统对HBase非主键查询带来的性能提升。
其他文献
封建文化以及黄色、暴力、享乐主义、极端个人主义等西方文化糟粕是青少年正常人格形成的重大障碍,而人格缺陷又导致他们偏离社会规范,甚至违法犯罪。根据青少年的不同需要采
地下铀矿开采是一项系统化的柔性工程,它是有多种子系统构成的,在层次以及影响因素上都具有多样性,它对安全生产有着极高的要求,尤其是在矿井通风、矿山爆破上更是如此。在这
<正> 浩浩长江,日夜奔腾,汹涌澎湃,一泻千里。谁能想到万里长江曾经西流和断流呢?但历史却记载了这一奇异的现象。地质研究资料表明,约在1.5亿年前,我国的万里长江在其漫长的
针对含气输油管道中水力瞬变过程,建立了气泡离散布置模型。在考虑变波速的情况下,采用特征线法进行求解,并编制了计算机程序。对具体含气管道进行了实例计算,结果表明,所提
期刊
服役中油气管道的失效会造成严重后果,为了避免管道失效对经济、环境和社会造成影响,应采取合理的方法来预测腐蚀管道的安全寿命,对管道实施科学的维修决策。针对管道特征和
汪曾祺散文是文化转型期文人传统复活与转化的精神与艺术的标本。从作家与现实的关系看,汪曾祺所持的是“边缘化”立场;同时汪曾祺还以他的创造让我们重温了审美化的入生之勉力
某天友人来家中喝茶聊天聊芳香,聊到兴起,我把精油箱搬出来与她细细聊起了这种精油怎么用,那种精油又如何好闻,对于心理与身体有怎样的疗效。友人也就爱闻着香,听我说、与我聊,来家
期刊
重钢1200米~3高炉,自1989年4月投产后,为了发挥新设备、新技术的作用,逐步实现高压操作,根据设计能力炉顶压力要达到150千帕,铁口采用无水炮泥,保证铁口正常深度和良好的工作
<正> ①顺着地球自转的方向,西经度数逐渐增大,东经度数逐渐减小;相反,东经度数增大(或西经度数减小)的方向就是地球自转的方向。②同一经线上的两地的距离约为其纬度度数差