大规模RDF图数据的子图匹配查询研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:f1f1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
子图匹配(Basic Subgraph Pattern Matching)是RDF图数据管理中的一种基本查询类型,又称子图同构(Subgraph Isomorphism),是一个NP-Complete问题。随着语义网的发展和开放链接数据运动的发展,越来越多的数据通过RDF格式发布出来。高时间复杂度和巨大的数据规模给RDF图数据的管理带来了巨大挑战。目前的单机查询算法由于受限与子图匹配问题的特性,往往会引入大量的连接操作,效率较低;基于MapReduce的分布式查询方案受限于MapReduce的迭代机制,查询效率很难提升。因此,如何高效地在大规模的RDF图数据上解决子图匹配问题,成为一个具有挑战性的工作。本文提出了集中式和分布式两种RDF图数据查询方案。在集中式查询方案中,数据图根据顶点度数的大小拆分成星状的小规模子图,并将这每个子图编码成一个二进制串。将子图匹配的部分操作转换成二进制位的“与”和“或”操作。使用该二进制串来过滤出可能的子结果。然后将子结果拼接成完整的查询结果。该方案避免了大多数的连接操作,使得每次访问索引获得一条三元组信息优化到每次访问索引获得一组三元组信息。这种查询方案提高了每次查询获得的信息量,大大减少了连接操作数量。在分布式查询方案中,将RDF图中的每个顶点都视为可执行计算的单元,将整个图映射成可互相传递消息的顶点集。这种模型基于BSP计算模型设计,充分利用了图的特点,使用消息传递的方式逐步完善查询图,逐一减少变量数量,最终得到查询结果,避免了迭代的MapReduce计算模型在解决图计算问题时存在的很多限制,查询效率明显提高。本文设计的实验从索引的空间代价和查询响应时间等方面对上述两种方法做了评价,集中式查询方案在查询响应时间上优于目前性能最好的通用RDF集中式查询引擎RDF-3X和gStore,分布式查询方案也较MapReduce框架下实现的查询方案有较大的性能提升。综上所述,本文针对RDF图数据上的子图匹配问题提出了单机集中式查询和集群分布式查询两种查询方案,在索引结构、数据编码、查询算法等方面提出了具体解决方案。有效地降低了查询时间复杂度。
其他文献
无线传感器网络(WSN)是目前国际上研究的热点,它融合了计算、通信和传感器这三项技术的交叉应用,具有十分广阔的应用前景。在网络中,数据的传输就是靠路由协议来控制管理。因此
MPEG-2视频编码标准的广泛应用积累了丰富的资源,而采用H.264编码的视频只用一半的码率就可以取得和MPEG-2相同的视频质量。为方便存储和传输,把MPEG-2格式的视频转换为H.264
敦煌是现存最大的佛教圣地,由于人类活动、环境变化、自然灾害等因素,敦煌文化遗产保护工作正面临十分严峻的挑战。近年来,随着敦煌莫高窟壁画数字化技术的迅猛发展,如何有效运用
学位
高性能CPU 是国家技术实力的象征,拥有自主知识产权的CPU 对国家的经济、军事及安全具有重要意义。正是基于这个原因,本人在深入了解CPU的工作原理和设计方法的基础上,确定了具
信息技术的迅速发展和应用的日益广泛,使计算机软件的重要性与日俱增。同时,随着软件规模的日益庞大,软件需求越来越复杂。因此,在软件开发过程中,需求变更成为必然。目前,软
学位
语义Web服务是基于本体的新一代Web Service技术,开放式的服务结构则是电信网络提供服务能力一种新方式。结合语义Web服务与电信开放服务框架,为电信领域构建一个以用户为中
随着数据收集和数据存储技术的发展,多模态数据广泛存于各种应用场景当中,如何对这些数据进行高效的分析是机器学习研究领域的热点问题之一。在处理多模态数据时通常会遇到维
在数据库应用系统中,查询速度的快慢直接影响到应用系统的生命力。数据库用查询计划表示查询优化器选择的查询优化策略,查询计划的好坏直接影响到查询速度的快慢。本课题将基于