面向冗余计算削减的高效图模式匹配方法

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:_STLer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图模式匹配在图挖掘中是一类具有挑战性的问题。首先,模式图中顶点或边的搜索顺序与性能密切相关,不同的搜索顺序可能会导致最后的执行时间相差几个数量级,其次,由于模式图普遍存在对称结构,对称结构在模式匹配的过程中会不可避免地映射到同一组嵌入,从而引发了冗余计算,这还会导致最终匹配结果中存在自同构,最后,在枚举子图的过程中,中间子图规模,计算量呈指数级别增长,系统的内存消耗往往很大。为解决以上问题,单机图挖掘系统Tuwajuer提供了一套处理有向图模式匹配的高效方案。系统将有向图的模式匹配分成非等价模式图,等价环模式图和轴对称模式图三类。针对非等价模式图,基于边选择度的有向图模式匹配算法实现了结合模式图与数据图实时地生成探索顺序,通过每次扩展选择度最大的边来保证当前的探索空间最小,以达到减小计算量的目的。针对等价环模式图,基于DFS(Depth First Search)的图匹配算法通过最小起始点的规则限制使每个任务在探索过程中能够迅速剪枝掉大量不符合规则的探索路径,这在消除自同构的同时,避免了冗余计算。针对轴对称模式图,模式图分割与重组策略通过等价点组分割出模式图中唯一的重复子结构,对分割后的模式图进行模式匹配,在模式匹配的过程中,可以对得到的分支嵌入进行重新组合得到整个嵌入,实现了不需要挖掘完整的模式图而只用挖掘模式图的重复子结构就能得到模式图的所有嵌入,这削减了模式匹配原本所必须的计算量,并改善了中间数据爆炸的问题。通过与当前主流的图挖掘系统对比,Tuwajuer可以处理十亿边级别的数据,并且具有良好的可扩展性。总体性能优于Peregrine和Graph Pi。特别是对于轴对称模式图,在不同的数据集下,Tuwajuer比这两个系统的性能要高出30%到600%。
其他文献
基于深度学习的遥感影像目标检测技术已在各类任务上得到了广泛应用,而由于环境、天气等因素的变化,实际工程任务中存在着域偏移现象;同时,由于现实世界固有的小样本问题,很难去收集到足够多的有标注数据,基于丰富标签的传统深度学习模型的精度大打折扣。针对小样本遥感影像的实际应用场景,从域自适应技术出发,提出了基于自训练的半监督域自适应学习算法。根据源域、目标域数据分布特点,针对性地设计了用于旋转目标的弱-强
学位
联邦学习从客户端丰富且高度隐私敏感的训练数据中学习共享模型,数据模型在中心与客户端间传递并迭代训练,这导致常规的联邦学习必须面临客户端数据的非独立同分布(Not Independent and Identical Distributed,Non-IID)问题和安全性问题。联邦学习存在的另一个问题是对有标签数据的依赖性,但在实际应用过程中算法需要从无标签的用户数据中尽可能地挖掘信息。为了解决以上问题
学位
随着大数据时代的来临,应用服务中充斥着海量信息,使得用户难以从中有效的挖掘出所需的高质量信息。而推荐系统则可以有效的解决“信息超载”问题,依据用户的喜好,为其精准的推荐感兴趣的潜在商品信息。然而现有的推荐算法普遍存在以下两个问题:1)数据稀疏问题;2)没有利用辅助侧信息且未对多源异构和高阶多维的非线性信息进行统一建模。鉴于此,本文结合张量分解和张量神经网络,设计了高效精准的混合推荐算法。首先,提出
学位
压缩感知(Compressed Sensing,CS)理论指出:信号只需满足可压缩或在一个特定域中有一定稀疏性,便可以通过和稀疏基不相关的观测矩阵进行线性观测,并通过算法重构得到初始信号。先验信息是指主体在观察该事物之前已经具有的关于该事物的信息,其在在信号重构中至关重要。目前CS重构算法大多只考虑图像的单个先验信息,如非局部低秩,先验正则等,对于不同图像重构的效果波动很大,抗噪能力也不强。且非局
学位
芯片诊断是一种基于诊断工具分析不合格芯片的测试数据、电路网表以及电路响应的过程,用于对其中的真实故障进行定位。芯片诊断分辨率反映了芯片诊断结果的精确程度,较高的诊断分辨率能极大地节省后续物理失效分析的成本,有助于发掘集成电路出现故障的问题根源,进而达到改善芯片生产工艺、提高芯片生产良率、降低生产成本的目的。芯片诊断的输出是一组疑似故障位点及其邻域上的状态,电路中的故障与其邻域有着密切的联系。现有的
学位
人机物三元空间智能融合成为时代发展的新浪潮,如何有效处理和利用由人机物之间频繁交互而产生的大量高阶高维数据,是促进人机物智能快速发展所面临的重大挑战。传统深度学习算法经过多年发展,在对象检测、目标跟踪等领域取得了巨大的成功,而随着其与人机物智能的深度结合,传统深度学习面临的问题愈加凸显:第一,其大都是在向量空间中对数据进行表征和处理,在对信息-物理-社会系统中产生的高阶高维数据建模时,会破坏数据的
学位
布尔可满足性问题是计算机科学领域中一个十分重要的问题。它是第一个被证明为NP完全的问题,自提出以来,就得到了广泛的研究。许多著名的NP完全问题经常转化为布尔可满足性问题进行求解。另外,该问题在人工智能、形式验证以及电路设计等多个学科领域均有着实际的应用价值。目前,布尔可满足性问题的现代求解算法能够在可接受的时间内求解大规模算例并且可以取得高质量的求解方案。但算法依靠专家经验根据不同的算例特征设置相
学位
伴随着医疗数据的不断增长以及医疗智能的持续发展,医疗数据的潜在信息与价值对公共健康领域的影响越来越大,例如新冠胸透数据在不同区域不断呈现出新的病症变异特征,这直接影响诊断判别标准。但是由于胸透数据蕴含患者的个人信息,具有高隐私性与高保密性,无法大范围共享。在这样的背景下,医疗数据的信息挖掘与共享的过程显得异常艰难。近年来联邦学习作为高效的、支持多机构参与的分布式计算框架,用户可以通过共享梯度来学习
学位
在存算分离型数据库管理系统中,重做日志(redo log)在计算层和存储层的数据一致性上起到了关键作用。重做日志写入缓冲区和重做日志持久化是重做日志处理过程中比较重要的两个环节。因此,对这两个环节进行优化可以提高系统性能、简化节点之间的合作逻辑,使系统能更好的面对高并发、高连接且易于维护。针对存算分离型数据库管理系统在重做日志缓冲区结构、锁机制、线程调度和网络通信等方面的不足之处,给出了改进优化方
学位
脑胶质瘤为最常见的颅内恶性肿瘤,临床需要从T1、T1ce、T2、FLAIR四个模态的磁共振图像中分割并区分出包含坏死核心、增强核心、周围水肿的肿瘤区域。目前基于深度学习的多标签分割算法有较好的效果,但需要大量带注释的数据集参与网络训练。针对现有的脑胶质瘤数据集较小的问题,使用生成对抗网络(Generative Adversarial Nets,GAN)的方式生成数据以扩充数据集。脑胶质瘤影像对图像
学位