基于Spark平台支持空间数据管理的图计算框架的研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:clare228
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社交媒体的不断发展,网络通信每时每刻都在产生海量的数据信息,而伴随着海量数据的指数级增长,“大数据”成为信息技术的热潮。对于有移动社交网络设备所产生的大量的数据,图是用来分析数据之间所反映出来的关系最好且最直观的工具。因此,使用时空图来进行数据的分析在最近几年逐渐引起了诸多学术研究者的关注。但是在很多实际的生活场景中,我们仅仅需要分析一部分数据,换言之,对于一个给定的查询请求,时空图需要根据查询条件返回一个子图。例如在很多像纽约大爆炸的调查这样的例子中,政府只需要对纽约市区的局部区域内的数据进行分析调查相关数据而非整个纽约市的数据,这样的生活场景整敦促这我们在快速地构建时空子图方面进行研究。对于这样的时空子图的构建及分析操作,现有的分布式图计算框架将会对所有的图数据进行遍历检索,然后进行数据的全体比较从而查询到所需要的子图数据,这就浪费了很对用来与数据进行比较判断的时间。同时实际应用数据在空间位置方面具有局部性原理,即位置近的边通信频繁。结合这两项问题,我们在本文中提出了两项优化的分布式图计算框架SpatialGraphx和GeoGraphx,SpatialGraphx模型在Graphx模型的基础上进行的改进,GeoGraphx模型是SpatialGraphx的优化。利用数据的空间和时间特性,SpatialGraphx在子图构建方面提出了两项扩展,分别是为数据构建时空索引和新的基于区域进行分区的时空图数据分区策略。为了检测SpatialGraphx模型的性能,我们使用有亿条边的移动通话数据进行实验,该模型可以有效支持快速地时空子图构建和时空子图分析,并且和Graphx模型相比,新模型的性能最少是Graphx的3倍,且该比例随着数据量的增大逐渐增加。随着后期深入的研究,在本文中我们还提出了新的GeoGraphx模型来优化SpatialGraphx模型中所存在的数据管理负载不均衡和查询操作负载不均衡等缺陷。GeoGraphx模型主要提出两个新观点:一是可以平衡集群中各节点的负载均衡并能够最大化子图查询操作中各节点并行度的优化的四叉树索引时空管理机制,二是新增图的时空操作接口。通过实验,GeoGraphx性能比SpatialGraphx和Graphx要好。
其他文献
随着网络和信息技术的发展,不同组织域之间的信息共享和分布式协作变得日益广泛。一方面为现代社会生产和生活提供了很大便利,而另一方面,又会带来各种信息安全问题。各个组织域
随着以微博为代表的社交网络的兴起,在带给人们前所未有的资讯体验的同时,社交网络中层出不穷、愈演愈烈的谣言信息也成为日益突出的问题。谣言的自动检测研究作为社交网络谣言
近年来,世界经济发展迅速,但是很多国家的交通设施的建设速度都不及机动车增长速度,导致交通拥堵问题愈演愈烈。交通拥堵会造成极大的时间浪费和经济浪费,也会造成空气污染、噪音
Web服务作为一种新型的Web应用模式,近年来得到了迅速的发展。如何把现存的各种Web服务整合起来形成新的、增值的服务并满足用户对服务质量的要求成为服务组合领域的应用需求
近年来云计算技术发展迅猛,作为云计算技术主要应用形式之一的VDI[1](Virtual Desktop Infrastructure)也在随着企业用户和普通用户实际应用需求的变化而不断改进与完善。VDI
硬件的普及推进了软件的发展。随着高精度数码相机的普及,一些原本得不到推广的技术变得当普遍。车牌识别就是其中之一。这项技术主要用于高速公路违章记录,停车场收费管理系统
在数字图像处理领域中,图像的分辨率可以反映图像的清晰程度,是评价图像质量的关键指标。由于人脸图像在计算机视觉,模式识别等领域中起着至关重要的作用,所以关于人脸图像超分辨
伴随着流媒体的广泛应用和人们对高服务质量的追求,流媒体传输技术成为网络应用的一大热点。流媒体集音频视频及图文于一体,具有数据量大、低时延、低抖动等特性。流媒体数据在
近年来,云计算和软件即服务(SaaS)的受关注度越来越高,云存储成为信息存储领域的一个研究热点。大多数现有的云存储系统是建立在分布式文件系统之上的,其中以HDFS分布式文件
随着我国社会信息化的不断发展,餐饮行业的点菜系统也在不断地进行信息化建设,无线点餐系统已经成为影响酒店档次的主要因素之一。目前,市场上流行的无线点餐技术是一种基于P