基于Spark的图数据查询算法研究

来源 :北京交通大学 | 被引量 : 5次 | 上传用户:looen01
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图是一种重要的数据结构,有着强大的信息表达能力,可以描述现实中诸多网络类型的问题。随着互联网中数据规模的增长,其形成的图结构越来越复杂,如何在大规模数据图中有效地进行图数据查询是当前关注的问题。子图同构算法是图数据查询的核心。子图同构问题被证明是一个NP完全问题,不存在多项式时间内的算法,为了能够在可接受时间内完成大规模数据图下的查询,理想的解决方案是设计高效算法同时提高处理平台的性能。提高子图同构查询算法的性能需要从索引策略、剪枝规则、候选集生成策略和匹配规则四个方面着手改进,以求算法从局部到整体效率的提高。针对上述问题,论文进行了以下工作。首先,论文研究并设计了一种基于顶点和邻域信息的索引VNIndex。该索引的主要原理是将数据图中所有顶点与其周围邻居顶点建立单独的联系,探测与邻居顶点形成的点边信息,将这些信息整理构建形成以自身顶点为核心的索引数据。该索引结构能够压缩图数据,实现在最小索引规模下有效地检索信息。其次,论文设计了一种基于VNIndex索引结构的精确子图同构查询算法VNQuery。剪枝方面,算法设计并应用了一种先期剪枝和匹配中剪枝相结合的剪枝策略,细化了剪枝规则,提高了剪枝效果;候选集生成方面,算法中设计并实现了一种改进的候选集生成策略和基于邻域扩展的顶点查找顺序,减少了候选集生成规模,加快了查找速度;顶点匹配方面,算法设计了一种改进的顶点匹配规则,使用四种合计七条匹配规则进行匹配顶点的确认,完成匹配的同时进行细粒度的剪枝。论文利用GraphX模型对图数据自动切分存储的特性,完成了算法基于Spark分布式平台的实现,并在两种数据集上进行实验。实验结果表明,在大型图数据集上,论文设计的VNQuery算法具有较好的执行效率。
其他文献
在移动Ad Hoc网络(Mobile Ad Hoc Network,MANET)中,节点的移动特性将直接影响网络性能。因此构建一个真实、合理的移动模型以仿真节点在实际场景中的运动过程是研究MANET的重要
社会网络是近年来快速发展的社会实时新媒体,它日益影响着人们的生活和学习,帮助人们更好的进行信息的交流和分享。在社会网络上,存在着一些非常活跃的用户,他们关注了成百甚至上
随着信息科技时代的来临,许多曾经需要人工收集数据信息、操作的系统和流程如今已经计算机化,产生了许多信息管理系统例如图书管理系统,然而许多信息管理系统都面临处理速度
WebGIS是Internet技术应用于GIS开发的产物。随着互联网技术的快速发展,WebGIS越来越流行,已经成为大众不可或缺的工具。但是传统的WebGIS客户端依赖于Html,与用户的交互性差
当今世界正处于一个信息爆炸的时代,用户查询信息时常常被信息淹没,迷失在信息中,这大大降低了检索的效率。如何快速高效的进行信息的分类管理,为用户提供准确有用的信息,是一个需
随着软件系统的演化,系统的模块化结构会逐渐偏离其最初设计,并且这种偏离的不断积累通常会降低软件的可维护性,损害软件的整体质量,甚至使软件更容易引入缺陷或错误,进而导
本文主要讨论最小邻居化问题和邻居最大化规则下Voronoi博弈形式的竞争选址问题。最小邻居化问题是指对平面中给定的n个点,选址放置k个新点使得在n+k个点的Voronoi图中,所有
实验教学是教学活动中的重要环节,有利于学生深刻理解理论知识、积极发挥主观能动性、进行科学研究与再创造,是从理论走向实践的桥梁,也是高校教学中不可或缺的重要组成环节。实
物联网技术成为近些年人们研究的热点,而作为物联网关键技术之一的无线传感器网络更是热点中的关键点。无线传感器网络是一种特殊的Ad-hoc网络,因此其除了具有Ad-hoc网络的一般
随着互联网技术的爆炸式发展,在线交易渐渐成为日常生活中越来越受重视的商品交换方式。确保参与者之间交易的公平性是保证电子支票,电子机票,电子合同签订等电子商务活动可