论文部分内容阅读
随着社交媒体的不断发展,网络通信每时每刻都在产生海量的数据信息,而伴随着海量数据的指数级增长,“大数据”成为信息技术的热潮。对于有移动社交网络设备所产生的大量的数据,图是用来分析数据之间所反映出来的关系最好且最直观的工具。因此,使用时空图来进行数据的分析在最近几年逐渐引起了诸多学术研究者的关注。但是在很多实际的生活场景中,我们仅仅需要分析一部分数据,换言之,对于一个给定的查询请求,时空图需要根据查询条件返回一个子图。例如在很多像纽约大爆炸的调查这样的例子中,政府只需要对纽约市区的局部区域内的数据进行分析调查相关数据而非整个纽约市的数据,这样的生活场景整敦促这我们在快速地构建时空子图方面进行研究。对于这样的时空子图的构建及分析操作,现有的分布式图计算框架将会对所有的图数据进行遍历检索,然后进行数据的全体比较从而查询到所需要的子图数据,这就浪费了很对用来与数据进行比较判断的时间。同时实际应用数据在空间位置方面具有局部性原理,即位置近的边通信频繁。结合这两项问题,我们在本文中提出了两项优化的分布式图计算框架SpatialGraphx和GeoGraphx,SpatialGraphx模型在Graphx模型的基础上进行的改进,GeoGraphx模型是SpatialGraphx的优化。利用数据的空间和时间特性,SpatialGraphx在子图构建方面提出了两项扩展,分别是为数据构建时空索引和新的基于区域进行分区的时空图数据分区策略。为了检测SpatialGraphx模型的性能,我们使用有亿条边的移动通话数据进行实验,该模型可以有效支持快速地时空子图构建和时空子图分析,并且和Graphx模型相比,新模型的性能最少是Graphx的3倍,且该比例随着数据量的增大逐渐增加。随着后期深入的研究,在本文中我们还提出了新的GeoGraphx模型来优化SpatialGraphx模型中所存在的数据管理负载不均衡和查询操作负载不均衡等缺陷。GeoGraphx模型主要提出两个新观点:一是可以平衡集群中各节点的负载均衡并能够最大化子图查询操作中各节点并行度的优化的四叉树索引时空管理机制,二是新增图的时空操作接口。通过实验,GeoGraphx性能比SpatialGraphx和Graphx要好。