特征索引的大规模图子图查询方法研究

来源 :辽宁大学 | 被引量 : 0次 | 上传用户:yishuiji111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
科技不断发展,各门学科与计算机领域的结合越来越紧密,图作为重要的数据结构,其应用范围不断拓广。蛋白质网络,社交网络以及电子商务网络等,都是以图进行建模的数据。随着互联网用户成倍的增加以及各门学科问题研究的深入,图数据规模逐渐增大,形成了复杂而又密集的大规模图结构,对海量图数据进行有效地管理和挖掘成为图数据研究的关键。近年来,在大规模图上进行子图查询的应用倍受关注,传统的子图查询方法适用于较小规模图的查询,如何优化大规模图结构的存储并高效的从海量图数据中查找出特定结构的子图成为当前研究的一项挑战。因此,本文利用索引查询的优势,提出了一种在图数据上建立特征索引的查询方法,线下提取结点特征,建立索引结构,线上进行索引遍历。基于这一索引,本文分别对星型结构和非星型结构两种查询模式进行研究,在非星型结构的子图查询中,定义了图的模式分解概念,并对中间解构建图模型,经过连接预处理后利用多连接方法计算最小代价确定连接顺序,得到最小规模候选集和尽可能小的查询结构,从而有效提高同构检测速度和查询效率。本文的研究成果主要有:(1)提出邻接点标数特征表的定义,将数据图结构转化为特征表的方式存储,结点的标签、度以及邻接点不同标签及其个数四项信息作为特征对数据图结点进行分类,根据分类原则将结点及对应的特征信息存储在特征表中。线下提取特征存储为特征表加快了索引的构建。(2)提出利用特征表构建邻接点双层索引Dulaq-Index的方法,根据特征表中结点的标签不同,每一类标签结点构建一棵特征索引树。根据特征表内特征间的包含关系分别设计上层索引和下层索引,根据邻接点标签个数是否唯一设计索引值,最终底层叶结点存储对应的数据图结点信息。实验表明该方法显著提高过滤效率,加速子图查询。(3)根据索引的特殊性,探究出星型结构子图的查询方法。提取星型查询图星心特征,通过遍历索引进行过滤得到结果集,再依赖存储结构的特殊性,对结果集展开得到最终查询结果。该查询算法极大提高了过滤能力并省略了对候选集的同构判别过程,与目前广泛应用的提取特征路径算法进行比较,有效缩短了子图查询时间。(4)针对非星型结构查询图的查询,提出结构的分解、子项过滤、中间解连接以及结果集同构判断的非星型图查询方法,定义了模式分解概念,提出基于图模型的中间解连接预处理方法,并结合MVP多连接查询算法,实现最小代价的中间解连接,得到的查询结果集是较小规模的图结构。再对结果集进行深度优先遍历得到最终的查询结果。实验证明该方法大大缩小查询图候选集,有效提高了查询效率。
其他文献
随着国家房地产建设行业竞争发展,室内环境对于人们生活健康的影响越来越被大众所重视,且由于人民对于室内生活舒适度要求的提高,大量房屋建筑被过度装修,使得空气环境质量越来越差,室内空气品质逐渐下降,其中甲醛是室内空气最主要的污染物之一。在现有的研究中发现,光催化氧化技术作为室内空气净化最为有效的方法,具有反应彻底、反应速率快及安全可靠等特点。因此,整合现有光催化净化装置的优势,如何将光催化氧化技术更好
高速公路整个运行系统中,收费管理系统占有非常重要的地位。人员方面,收费员、监控员、管理人员等人员众多;收费管理模式的演变方面,由原来的纯人工模式增加到ETC(高速公路不
近年来,Web服务作为SOA的一种实现形式,在电子商务、企业应用等领域都扮演着愈发重要的角色,其全新的软件组件思维方式,使得系统服务化集成成为一种新的软件复用解决方案。已
伴随着互联网技术的快速发展,原有的IPv4地址已经不能满足日益增长的网络业务需求,继而产生了NAT技术——其出现以及发展强有力地缓解了IPv4地址不足的问题。但NAT技术引起的
SDN(Software Definded Network,软件定义网络)是一种新型的网络创新架构,它是实现网络虚拟化的方式之一,SDN的出现实现了网络设备控制层与转发层的分离。从而通过SDN控制器
Takagi-Sugeno-Kang(TSK)模糊系统在处理高维非线性建模任务时,通常需要更多的模糊规则数,这也进一步降低了其清晰度和解释性,所以本文研究如何稀疏模糊建模。随着异构数据的
由于用户对数据的安全性和隐私性的要求不断提升,越来越多的企业用户开始建设自己的私有云平台,其中以云桌面(Cloud Desktop)应用最为典型。为了增强云桌面的用户体验,向用户
在过程工业中,很多关键的质量参数无法实时在线测量,只能通过实验室离线分析获得,严重制约了过程的监测、控制及优化水平。为此,软测量技术通过建立易测变量与难测变量之间的
数据分析技术在各个领域应用广泛。其中,聚类分析作为一个重要研究方向,获得了极大的发展。数据竞争(Data nCompetitio,DC)算法是一种基于划分的聚类算法,能够排除孤立点带来
当前,互联网的应用模式已经从发送者驱动的点对点通信为主转向接收者驱动的大规模信息获取为主。内容中心网络(Content Centric Network,CCN)顺应这一应用模式的转变,实现了