基于HBase的SQL与搜索引擎融合查询技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：kuuldor

【摘要】

：

二十一世纪，人类进入大数据时代，大量历史数据的积累导致数据量高速增长，海量数据领域越来越被人们所重视，该领域涌现出了许多新技术。一方面，人们需要高效存储日益庞大的数据集;

【作者】

：

陈芳蓉

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2016年期

【关键词】

：

HBase数据库 SQL服务全文索引数据一致性算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

二十一世纪，人类进入大数据时代，大量历史数据的积累导致数据量高速增长，海量数据领域越来越被人们所重视，该领域涌现出了许多新技术。一方面，人们需要高效存储日益庞大的数据集;另一方面，需要对海量数据进行关联分析，以期获取有益信息。技术的发展和时间的沉淀使得HBase被大家广泛认可，成为海量数据在线存储领域的首选。作为非关系型数据库典型代表，HBase读写性能优异，在分布式场景下具备近线性扩展的聚合吞吐率。　　然而，本研究发现，HBase具有以下功能局限性:首先，由于HBase继承自BigTable模型，数据表所有行按照行键的字典序排列存储，并将主键作为数据表的唯一索引，当用户查找非主键列时，无法避免对表进行灾难性的全表扫描;其次，在数据访问方式上，HBase并未将结构化查询语言作为核心实现的一部分，用户无法通过SQL语言查询分析所需数据。　　由此，基于HBase实现结构化数据与文本数据的关联查询是用户的重要需求，然而，目前业界并没有相应的解决方案。针对此问题，本文提出了一种可融合结构化及半结构化数据的新的查询框架，实现了基于HBase的SQL与搜索引擎融合查询的可用技术方案，研究SQL执行引擎及全文索引关键技术，并通过大量实验证明系统的可行性和高效性。本文主要贡献包括以下几大类:　　1)设计了SQL服务模块。将全文索引功能嵌入SQL服务中，使得HBase支持SQL访问及操作全文索引数据，此外，系统支持将全文索引查询作为SQL查询子条件，连同其它查询条件，提供用户进一步分析处理HBase数据表数据;　　2)实现了全文索引执行引擎。该执行引擎包括全文索引创建、更新以及查询这三个核心功能的执行过程管理和实现;　　3)提出了数据一致性保证算法。基于HBase的协处理器框架，使用异步方式更新全文索引数据，有效地减少了HBase数据库的写性能损失;　　4)构造了一套完整的元数据管理方案。元数据表包含SQL执行依赖的相关信息，存储于HBase数据库，复用HBase管理数据方式维护元数据表，降低了元数据表的维护成本。　　大量实验表明系统的每个模块都达到了设计要求。本文研究内容在充分保证了SQL语义正确性的同时，具有很高的全文索引查询性能。由测试结果得出，在查询字段大小4KB，数据量为10W以上时，相比其它方案本系统性能提升1倍及以上，此外，随着数据规模增大，系统具有更高的性能加速比，相较于其它HBase查询系统，本系统在全文索引查询性能上具有明显的优势。

其他文献

基于反射率的多尺度水表面重建方法研究

随着人们生活水平的不断提高，对于电视、电影、三维游戏中的特效真实感的需求也不断增强，水的模拟在其中应用非常广泛，因此图形学中流体模拟领域一直都是研究的热点。但与此同时

学位

水面动画三维重建数据驱动反射率

基于ASP.NET的多媒体课程教学网站的设计与实现

网络教学是现代教育技术综合应用中的一个重要领域，也是实现教育信息化的重要手段。随着信息化时代的不断向前发展，各个高校的校园网建设也已经初具规模，顺应教育教学体制改革的

学位

高校教育多媒体教学网站设计ASP.NET技术B/S模式

Web应用在线故障诊断框架的设计与实现

随着Internet的快速发展，以Web应用为主要形式的网络服务已成为现代社会不可或缺的重要组成部分，保障网络服务的正常运行并有良好的服务质量十分关键。软件故障诊断技术是一种

学位

故障诊断Web应用系统度量自动化程度

语种识别中鲁棒性特征研究

语种识别是指计算机自动判定一段语音所属的语言种类的技术，在近几年中，其应用需求显著增加。语种识别中的一个重要研究问题是提取语音的语种鉴别性信息。一般来讲，一个成功的语

学位

语种识别语音时域伸缩变换音素对数似然比特征音素对数域后验概率特征瓶颈特征

第三军医大学数字化校园的研究与建设

人类已经迈入二十一世纪，信息化、智能化已经成为当今的热门话题，无论是在金融、医疗、军事、教育等各领域都在实行着信息化、智能化的革新。如何运用先进的技术实现现代化的管

学位

信息化建设数字化校园全局服务模型运行体系

基于语义保序的主动WS-Notification系统的研究与实现

面向服务的体系结构是一个广泛应用于企业级软件架构的模式。它通过将不同功能抽象为服务,通过使用接口将服务与服务联系起来。这样的体系结构满足现今对功能解耦的需求。于

学位

发布订阅系统WS-Notification主动推送语义保序

基于数据挖掘算法的作者名称清洗及构建科研评价系统

生物信息学是将数学、计算机科学等领域的科学理论、应用技术等应用于生物科学，以达到了解生物数据的目的的一种跨学科前沿科研领域。第一生产力的科技，已然成为改善人类的生活

学位

微生物生物信息统一作者库科研评价数据挖掘算法

一种面向软件过程的可信证据模型及过程可信性评估方法研究

信息化社会对软件系统日益增长的需求与依赖，以及软件规模及复杂度的不断增加加剧了软件的“可信”问题。开发满足客户需求的可信软件是目前软件业的巨大挑战。软件过程技术的

学位

可信软件过程域过程评估可信证据模型安全软件设计可信级别

半监督学习的研究及在自动文摘中的应用

随着中国科学院科研信息化进程的加快，Academia Resource Planning3.0(ARP3.0)项目加快了中国科学院科研人员信息化办公的效率，然而，网上办公的信息量激增，文献和文字数量曾指数

学位

科学院网上办公软件设计半监督学习自动文摘

基于语义网的手机短信3D动画情节规划

全过程计算机辅助动画自动生成技术由中科院陆汝钤院士于上世纪90年代提出，这一技术的目标是将适当的故事以受限自然语言的方式输入计算机，由此开始一直到动画的生成，每一步都是

学位

动画自动生成技术情节定性规划语义网手机短信计算机辅助

基于HBase的SQL与搜索引擎融合查询技术研究

与本文相关的学术论文