基于异步流水线的分布式图查询引擎研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：xsb

【摘要】

：

在互联网技术高速发展的带动下，人类社会正逐步走向大数据时代，随着数据规模的指数级增长，数据间依赖的复杂度增加，传统关系型数据库系统已经无法满足某些新的应用场景的需求。基

【作者】

：

朱海帆

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2015年期

【关键词】

：

图查询引擎异步流水线热点切分服务器端存储方式

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在互联网技术高速发展的带动下，人类社会正逐步走向大数据时代，随着数据规模的指数级增长，数据间依赖的复杂度增加，传统关系型数据库系统已经无法满足某些新的应用场景的需求。基于“图”这一抽象数据结构的图数据库系统应运而生。图数据库在处理面向连接的数据模式时有着天生的优势。根据图数据结构上的特点，可以抽象出一种通用的属性图模型，并基于此实现了很多种类的图数据库。图数据库从功能上包含存储系统和查询引擎两个模块。　　然而，通过对现有图数据库技术的分析，在面对分布式架构的图存储层时，本研究发现当前的图数据库查询引擎无法充分发挥底层存储系统的性能优势:首先，传统同步式流水线运行方式限制了系统的并发度;其次，现有图存储模型无法自动分载热点的查询请求;最后，图数据库实例端的查询计算过程极大增加了网络开销。因此，本文设计并实现了一套基于异步流水线的分布式图查询引擎，研究了查询流程优化、存储方式设计、系统架构改进等关键技术，并通过大量实验证明了研究成果的可行性和高效性。本文主要贡献包括如下三个方面:　　1)设计并实现了一套异步查询流水线框架，将图查询语言转换成并发的底层数据操作。这套框架依托流水线的设计思路，以异步数据流驱动查询的执行。在图遍历的过程中，查询流水线使用有序缓存队列维护了并发查询管道的结果，从而用广度预取实现了并发式的惰性求值。保证结果顺序一致的同时，提高了系统并发度，降低了查询执行延迟。在异步流水线执行时还引入了一套线程池自动管理机制，完成了计算资源的合理分配。　　2)设计了一种分布式图存储模型，该模型继承BigTable的数据模式，在有效地保存结点、边、属性等图信息的同时，尤其可以将高度数的热点数据分布在多台服务器上。使用分段策略完成结点ID的分配和存储，生成唯一的结点标识，实现结点ID的切分。启用独立的热点切分器在数据持续写入的同时完成热点的监测，并最终通知图数据库实例在写入新数据时自动实现边的切分，在读取热点数据时分布式化。　　3)实现了一个分布式图数据查询引擎，架构上分为后端存储层、分布式计算层、数据库层和应用层，可以让多个独立的图数据库实例共享同一份底层图数据、共用同一套分布式计算层。在HBase之上构建了一个服务器端图计算模块，其中设计了新的边存储结构以完成一般的服务器端边过滤，同时实现了条件计算下推以完成复杂的服务器端谓词计算。结合热点切分策略，真正实现了图查询的分布式化，减少了查询执行时存储层与图数据库实例间的网络传输量和客户端的计算量。　　大量实验表明系统每个模块都达到了设计要求。与现有图数据库的查询引擎对比了点属性查询、邻边查询、边过滤查询和综合查询。相比现有的Titan分布式图数据库的查询引擎，本系统在点属性查询上查询效率提高了近30倍，在邻边查询上提高了30％，在边过滤查询上提高了10倍以上，在综合查询上也提高了10倍左右。

其他文献

并行微粒群算法研究

微粒群算法源于对鸟群捕食行为的研究,它是以个体的协作与竞争来完成对复杂搜索空间内最优解的搜索,是一种基于群体智能的随机优化算法。微粒群算法的研究与应用近年来十分活

学位

群体智能微粒群算法并行计算并行计算模型并行微粒群算法通讯周期协同进化

SDN控制器的性能分析与优化

软件定义网络（Software Defined Networking，SDN）是一种新型的网络架构，它将网络的控制平面与数据平面分离，逻辑上集中式的控制平面使网络变的可编程、易管理。控制器在SDN网络中

学位

软件定义网络SDN控制器性能分析模块化设计

P2P系统中的语义检索方案研究

自从第一个P2P文件共享系统Napster产生以来，出现了许多P2P文件共享系统，P2P应用已经取代Web的地位成为ISP网络上最大的带宽消耗者。然而受资源类型多样化、搜索复杂度的制约，现

学位

p2p系统对等网络用户行为语义检索数据挖掘Maze系统

专利情报的网络动态监测获取与分析

“科学技术是第一生产力”已经在社会生产实践得到证明。而专利作为科研成果更是体现了一个企业乃至一个行业的科技竞争力。加入WTO后，我国企业所面临的国内外市场竞争愈发激

学位

专利情报专利情报网络动态监测网络动态监测专利搜索专利搜索本体本体文本分类文本分类科技竞争力科技竞争力

GMR-1 3G系统RLC/MAC调度算法研究与实现

卫星移动通信技术是目前通信领域里的一个制高点。本文针对新一代静止轨道卫星移动通信系统——GMR-13G（GEO-Mobile Radio interface-13rd Generation，第三代静止轨道卫星）系统

学位

GMR-13G系统RLC/MAC调度算法下行调制编解码卫星移动通信

贝叶斯网络在数字化森林生态站中的应用研究

贝叶斯网络作为不确定性知识表达和推理的一种方法，在很多领域都有着广泛的应用。贝叶斯网络是概率理论和图论相结合的产物，已经成为数据库知识发现和决策支持系统的有效方法。

学位

森林生态站贝叶斯网络预测诊断信度

基于整数时间的实时系统符号化模型检测技术

实时系统是指不仅系统内部的行为及动作的完成与时间有关，而且对系统外部事件(如输入、中断等)的响应都要满足一定时间约束的系统。由于在国防及工业控制等领域应用广泛，因此这

学位

时间自动

面向商业秘密的企业移动办公系统的研究与应用

学位

USB设备透明映射机制的设计与实践

USB总线因其高速、方便的特点，已经逐渐取代传统的低速总线，成为一种应用最为广泛的外设接口标准，越来越多的计算机外设开始采用USB接口。与此同时，共享USB设备的需求也变得越来

学位

USB总线URBUSB控制器簇传输共享技术透明映射

大规模非结构化文本实体解析的研究

非结构化文本的实体解析对于综合多源数据挖掘实体信息具有重要的意义。伴随着大数据时代的到来，这一问题遇到了新的挑战:如何高效有效地进行大规模的实体解析。基于现有分布

学位

文本实体非结构化数据分块键值设计滑动窗口

基于异步流水线的分布式图查询引擎研究

其他学术论文