大规模图数据库中的模式查询算法研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:cwwei1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着图数据规模在各个应用领域的飞速增长,图模式查询引起了越来越广泛的关注。常见的图数据分为两种,第一种是大规模图数据,例如社交网络;第二种是海量图数据库,往往由大量规模较小的数据图组成,例如化学分子库。在本论文中,我们主要探索这两种不同数据库类型上的基础的图模式查询问题。在查阅了大量的已有研究工作之后,我们总结了几个基础且广泛应用的图查询问题,并且提出了相应的有效解法,提高了图模式查询的效率和可扩展性。本文的主要贡献总结如下:1.大规模图上的最大完全二分图模式查询。最大完全二分图问题,简称为MEB问题,在大规模图数据库中有着广泛的应用场景,例如,风险控制、机器学习、计算生物学等。给定一个二分图G,G由两个不相交的点集U和V组成,完全二分图C=(L∪R)是G中的一个子图,其中L?U,R?V,且满足L中所有的点和R中所有的点之间都有边。最大(边)完全二分图即G上边数量最多的完全二分图。MEB问题是一个NP完全问题,在大规模二分图上,现有的方法缺乏高效性和可扩展性。因此,我们提出了一种分层模型,将MEB问题分成多个子问题,并且通过在子问题中不断更新最大完全二分图的方式得到最后结果。在子问题中,我们设定了严格的完全二分图点集大小条件,以此来保证生成的完全二分图规模比当前已有的最大完全二分图规模更大,从而避免了不必要的计算。我们引进了两种高效的剪枝策略,根据点集大小条件压缩原数据图,从而极大的减少了搜索空间。我们进一步提出了贪心的完全二分图初始化算法,在初始化阶段尽可能找到大规模的完全二分图,为后续的计算和子问题中的点集大小条件提供更严格的范围界限,以提高搜索效率。我们在大规模真实数据图中做了大量的实验,实验结果显示,我们提出的分层算法比现有最好方法快几个数量级,同时,据我们所知,该分层算法也是当前唯一可以在十亿级别边的大规模图上计算最大完全二分图的方法。2.海量图数据库中的超图模式查询。超图模式查询是海量图数据库中的基础问题,在现实中有众多的应用场景。给定图数据库和查询图,超图查询在图数据库中查找所有包含在查询图中的结果。现有的方法大多遵循剪枝-验证的框架,但是在较大规模的数据图和查询图中,现有方法可扩展性较差。因此,我们提出了新的索引和查询方法,来处理超图模式查询问题。在索引阶段,我们直接根据数据图结构得到特征图,而不依赖于开销昂贵的频繁子图挖掘方法。在选择特征图的过程中,我们充分考虑了特征图的剪枝能力和计算共享能力,得到了各种规模的特征图组成的特征树索引。在超图模式查询过程中,我们根据查询图来衡量不同特征图的剪枝能力和计算共享能力,动态的选择最优特征图优先进行对比。我们还探索了两种优化策略,包括轻量的图压缩策略以及基于优先包含结果的策略,来进一步提高算法效率。最后,我们在两个真实数据集中进行了大量实验,实验结果表明,我们的方法具有高可扩展性。3.动态图数据库中的近似超图模式查询。海量图数据库由许多的数据图组成,为了在海量图数据库中高效的进行超图模式查询,现有方法往往是基于索引技术。然而,其中大部分索引算法都不适用于动态图数据库。在动态图数据库中,往往有频繁的图插入、删除以及修改操作。用户可以在更新后的图数据库上重建索引,但这样的方法非常耗费时间。另一方面,在动态图数据库中,随着时间推移,数据规模越来越大,精确的超图模式查询方法将面临效率问题。因此,基于这两方面的观察,我们提出了动态图数据库中的近似超图模式查询算法。在索引阶段,我们提出了在动态图数据库中增量更新图索引的方法。在图索引更新过程中,我们充分考虑了特征图的剪枝能力和计算共享能力。在查询阶段,我们提出了超图模式查询的近似算法,在大规模的数据图和查询图上极大的降低了计算开销,并且保证了高质量的查询结果。最后,我们在两个真实数据集中进行了大量实验,实验结果显示,我们的方法具有高效性和高可扩展性。
其他文献
今年的春天醒得晚,阳光依然在乍暖还寒的天气里畏缩着。从单位往家赶大约是下午五点多钟,居然就有暮色四合的味道。和匆匆而过的行人一样,我也急着往家赶,突然一声“孩子,跟我回家
4年前.一名安徽籍的大一男生突发肾功能衰竭.生命危在旦夕。为了挽救儿子的生命.母亲决定摘下自己的一只肾为儿子做亲体移植。岂料换肾手术失败,母亲认为这是医院在术前没做必须
听力理解是语言多种能力的综合反映,任何一种能力的不足都会影响听力理解,阻碍听力水平的提高.本文通过分析IELTS听力测试内容的科学性和题型的多样性,论述了在课堂教学中采
2006年8月初,安徽省铜陵市总工会和四川绵阳市总工会联手帮助在铜陵市打工的61名绵阳籍农民工拿到了被拖欠的工资,随后,两市工会组织缔结成了城际间职工维权联盟。
针对目前混凝土桥墩缺少日照温度场长期实测样本,以及在温度数据处理中忽略尾部数据偏离主体的最大样本问题,提出采用广义帕累托分布(GPD)模型估计桥墩的温度荷载极值。以昌
土地整理储备工作涵盖了土地计划、土地收购、土地整理储备和土地供应等多个环节,具有业务过程复杂,持续周期长等特点,迫切需要利用信息化手段提升管理效率。结合天津市土地整理储备工作现状,探讨了土地整理储备信息化的实现方法与技术,设计了天津市土地整理储备管理信息系统总体架构,开发了集业务协同、过程监控、宏观统筹管理和辅助决策支持功能于一体的管理系统,并对系统功能作了详尽的介绍。
上个月下旬的一天.我驾驶私家车上班途中与夏某驾驶的机动车相撞.夏某受轻伤:公安交警部门经对现场进行勘验、检查、调查后,于这个月初作出了《交通事故认定书》,认定我驾车行至路
如何解决义务教育均衡发展问题?几年来,辽宁省沈阳市各级人大代表先后提出106件议案、建议,市政府相继出台多项新举措——
建立房产测绘数字化系统,完善房产测绘GIS系统,存储和查询房产图形信息和属性信息,以图管房和以图管证,方便产权产籍管理,动态维护房产基础图、关联项目测绘和基础测绘。
2004年3月。我正在北京出席十届全国人大二次会议。开会期间,我意外地收到了一封从人民大会堂转来的信。