面向HBase的多维索引及查询优化技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:jiwei5520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅速普及,人们的生活方式已经发生了极大的改变,互联网也将人类带入了大数据时代。在大数据时代,作为一种典型的半结构化文本数据,社交网络数据具备十分重要的价值,利用数据分析技术,企业和研究机构可以感知用户的行为特点、兴趣爱好,也可以进行社会舆情监测。但是,面对不断增长的数据规模,传统关系型数据库系统越发显得力不从心,因此,研究面向海量社交网络数据的存储和查询处理技术,具有十分重要的意义。  近年来,伴随大数据处理技术不断创新发展,开源的Hadoop平台已经得到了广泛认可,几乎成为了大数据处理领域的事实标准。HBase作为基于Hadoop的分布式NoSQL数据库,与传统数据库系统相比,具有更好的可扩展性,主要用于存储海量的结构化、非结构化数据,尤其是带有更新属性的数据。虽然HBase支持数据更新的特性使得它非常适合存储随时间变化的社交网络数据,但是它对于查询分析功能的支持并不理想,对外仅提供简单的查询接口,不能直接支持SQL查询以及对任意列建立索引的功能,因为HBase中的数据是按照行键有序存储的,行键作为数据记录的唯一主键,也是快速检索数据的唯一方法,如果在行键未知的情况下查询列值,则会转化为通过全表扫描进行数据过滤的过程,这显然是极其低效的。此外,现有索引方案在不冗余存储其他列时需读取原始数据表,读取过程普遍采用Point Get方式,在结果集较大的场景下这种方式的读取效率很低。  针对以上问题,本文首先研究了面向HBase的多维索引方案,提高了数据检索效率,然后针对索引方案普遍存在的读取数据效率较低的问题,设计了基于行键分布的数据读取算法。本文的主要贡献概括如下:  (1)结合海量文本型数据的查询需求,提出了面向HBase存储的基于全文索引技术的多维索引方法,该方法能够支持多维条件查询以及高效的全文检索,同时本文也对B+tree索引技术进行了研究,探索利用其优化区间查询的可行性。  (2)针对利用行键访问HBase数据表读取大量数据效率低的问题,本文提出了基于行键分布的数据读取算法,提升了索引方案的数据读取效率。  (3)文章最后将以上技术进行整合,并基于开源的Impala引擎实现了一个融合索引的查询处理系统,并开展一系列实验测试,通过与现有面向HBase的主流开源查询引擎及二级索引方案进行查询性能和索引构建开销对比,验证了本系统在查询性能、索引开销以及可扩展性方面的优势,提升了HBase应对复杂数据分析需求的能力。
其他文献
随着无线传感器网络(WSN)技术内涵的扩展以及物联网和泛在网概念的出现,“信息服务”而非“连接服务”将成为未来泛在信息社会的基本特征。作为物联网的感知延伸和物联网的信
近年来,随着计算机技术、互联网技术和多媒体技术的迅猛发展,图像数据量快速膨胀。数码相机、数字摄像机和智能手机等设备的普及使图片采集更加方便,低廉的存储介质和便捷的网络
该文是笔者结合自己在参加《长江日报五十年光盘》信息检索系统的设计垂发中的体会,从信息检索的简介、国内外信息检索系统的发展概述、系统总体设计的指导思想、系统的分析
云计算模式通过节约成本为企业和个人带来了更高的效益,但是由于云计算模式下数据、应用的高度托管,使用户对于云端几乎完全失去了控制权;而且出于云平台的安全考虑,云计算提
移动通信网络优化是移动通信网络从建设、运行到维护过程中的一个重要组成部分,用于解决现有网络中影响网络服务质量的新问题。网络优化工作针对网络中出现的问题采取相应技
模糊测试(Fuzz Testing)是在2000年之后才逐步兴起的一种非常重要的漏洞挖掘技术。它基于目标软件对输入验证的不完整性假设,通过向目标软件提供非预期的输入并监视异常结果来
随着网络带宽的发展以及人们接入网络方式的日益多样化,流媒体直播作为日常生活中常见的一种网络服务所吸引的用户在逐渐扩大,基于对等网络的相关技术研究的应用也推广了流媒
网络技术、分布式计算技术和三维可视化技术的飞速发展,为分布式三维地理信息系统(3DGIS)技术的实现提供了契机。其中,最主要的分布式3DGIS技术主要体现在网络三维可视化方面,即
现代处理器之间及对外设的互联通信数据需求越来越高。高速串行接口代替原有的并行接口,成为主流的互联接口。在高速接口中,非源同步串行接口更加节省通信信道资源。因此,在外设
当前,计算机和互联网在现代人的生活中无处不在,已经融入到人们的日常生活、工作、学习中。在计算机硬件性能大幅度提升和软件技术蓬勃发展的今天,计算机已经遍布人类社会的