论文部分内容阅读
随着互联网时代的到来,异质信息的规模正在飞速增长。具有广泛应用的图数据不仅在数量上急剧增长,其包含的信息也更加多样化,因此对海量图数据进行有效地管理具有重要意义。被广泛使用的RDF框架,是语义数据描述的标准,可以支持图数据的多样性,被广泛应用于异质网络的描述,非常适合描述海量图数据,因此本文采用RDF作为海量图数据的组织格式。在工业界和学术界有很多针对RDF格式的图数据管理的研究,其中传统关系型数据库无法支持大规模图数据的存储和查询,而分布式的管理方案尚不成熟,但是很有发展前景。本文对海量图数据的管理展开了一系列研究,旨在提出一种新的分布式的图数据管理方案,支持海量图数据的存储和高效查询,并可以灵活地进行图数据的清洗或转化,提取需要的网络,从而支持后续的图计算,同时用可视化的方式向用户展示不同规模和类型的数据。本文选择使用RDF格式来组织海量图数据,并设计出可以支持海量图数据存储和查询的方案。首先提出基于HBase的RDF图数据存储方案,基于垂直分割的思想,为每个属性建立两张表,用较少的空间实现海量图数据的存储,同时提出基于HBase的Path索引的理念以支持高效查询;其次讨论了海量图数据的查询方案,基于上述存储方案论述了基本的查询策略,对于复杂查询,提出利用Path索引来提升查询效率的理论,指出这种方案可以减少多表连接的次数,定量地分析了这种方法带来的效率提升,在此基础上,通过MapReduce计算框架,将查询压力分布在各个节点上,进一步提升了查询效率;最后设计和实现了原型系统的核心模块。基于上述的存储和查询策略,设计和实现了部分核心模块,包括基本查询引擎、网络提取模块以及查询结果的可视化模块等。本文对分布式的海量图数据管理方案进行了有效的探索,通过大量的实验和案例分析验证了方案的可行性。