大规模图数据库上的模式匹配

被引量 : 0次 | 上传用户:passcardaj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据管理问题几乎存在于一切人类活动领域中,如何利用计算机来管理大量的数据,几乎对于各个领域的工作者来说都是很重要的。关系型数据库已经在很多领域取得了巨大的成功,但是,已经有越来越多的复杂数据超出了传统的关系型数据库的能力范围,图就是这些复杂数据中的一种,它具有十分强大的表达能力,可以很好地表达像社会网络、XML文档、生物化学分子、蛋白质作用网络等客观世界事物的语义。因此,图数据的管理和查询吸引了越来越多的研究者的目光。图数据库上的模式匹配问题,要求给出指定查询结构在图数据库中的所有出现位置。这一问题是图数据库领域的关键问题之一,也是潜在应用最大的问题之一。一些研究者和程序开发者已经在这方面提出了很多的解决方案。但是,大部分的已有工作,要么是针对“小图”数据库的,也就是假设可以把数据库中一部分的数据图完全装载进内存里来,模式匹配算法可以完全在内存里进行。要么就是主要关注一些比较基本的查询,而对于复杂的模式查询,主要是通过关系数据库中的连接操作来实现的。本文则是主要关注和讨论如何在大规模的、基于磁盘的图数据库上高效地进行模式匹配查询。本文的主要研究成果如下:(1)提出了一种大规模图数据库的系统设计方案并对其主要部分进行了实现。(2)提出了一种全新的、在基于磁盘的大图上进行模式匹配的算法。在本文中,模式匹配问题被转化为了多个临时表的连接问题。针对“广度优先”和“深度优先”策略各自的缺陷,本文提出了一种“满前进-空后退”的连接策略,可以在不把数量庞大的中间结果写入到磁盘的情况下,完成整个模式匹配的过程。对于基于磁盘的图数据库上的模式匹配所特有的一些问题,比如,一些临时数据的访问和存储方法、cache策略等问题,本文也进行了一些深入的讨论。(3)针对所述的模式匹配算法框架,本文提出了几种优化措施。本文讨论了不同的连接顺序对于查询执行效率的影响,提出了不同连接顺序的执行代价应该用什么样的标准来衡量。针对执行代价的衡量标准,本文提出了一种有效的优化连接顺序的方法。另外,本文还讨论了算法的平行化执行以及一些需要在线下进行的优化措施。在一个真实数据集上的实验表明,本文的算法和优化策略都是很有效的。
其他文献
<正> 大宝山层状多金属矿床,过去认为是“高—中温热液交代矿床”。随着该区勘探工作的深入及矿床开采所获得的实际地质资料,对矿床的成因,曾提出海底火山喷发沉积复生矿床和
资本结构对公司绩效影响是国内外财务理论研究的一个重要课题,对这一问题的研究具有重大的理论和现实意义。房地产业是国民经济的支柱产业,其持续健康发展直接关系到国民经济
目的:通过观察受试者治疗前后的视力、视网膜荧光素渗漏情况、眼底出血和中医证侯评分以及随访复发情况,观察清热解毒活血化瘀法,即清解活血汤对视网膜血管炎的治疗作用、适用
目的讨论左西孟旦和盐酸多巴酚丁胺治疗急性心衰的效果及对BNP水平的影响对比。方法选取2017年2月~2018年3月我院收治的100例急性心衰患者作为研究对象,按照随机数字表法将其
<正>"大数据时代上海基层党建科学化信息化研究"这一研究项目是基于历史判断和政治逻辑,在对上海市宣传系统以及其他相关基层党组织近年来党建信息化建设情况进行调研的基础
目的研究磁共振在股骨头坏死诊断中的应用效果。方法选取我院收治的80例股骨头坏死患者,纳入时间为2015年6月至2017年6月。分别对患者进行CT检查和MRI检查,比较两种检查方法
<正>党的十八大报告提出,打造战略性新兴产业,推动服务业特别是现代服务业发展壮大,着力解决制约经济持续健康发展的重大结构性问题。根据世界经济发展的一般规律,服务业是产
随着经济的不断发展,甘蔗生产用工成本越来越高,蔗农的种植收益越来越低,发展和推广甘蔗生产机械化成了迫在眉睫的事情。甘蔗生产机械化是个系统工程,应用和推广甘蔗生产机械
高位肛瘘为肛肠科疑难病之一,由于病变位置高,管道多弯曲复杂,常有支管、深部死腔,在治疗上难度较大。根据文献研究,传统中医挂线疗法一直是国内使用的治疗高位肛瘘的主流手