基于Spatial-Spark海量网络空间数据分析与应用

来源 :中国矿业大学 | 被引量 : 0次 | 上传用户:heeraigyf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数字城市是智慧城市重要的组成部分,也同时面临着海量空间数据获取、管理、分析和挖掘等挑战。移动互联网的发展使得网络空间数据呈现爆炸式增长,其中蕴含的信息对智慧城市建设有着重要的参考建议,然而这些数据存在着异质性、不规则性和海量性等特点,使得空间数据查询、空间数据挖掘和空间知识提取愈发难以处理。传统的空间分析工具面对上述需求往往捉襟见肘,本文对当前流行的并行计算框架Spark进行空间扩展,构建Spatial-Spark并行空间计算框架。以此为基础,对海量新浪微博POI进行同位模式挖掘,对全国新浪微博用户空间位置进行人口网络图分析,本文所作的工作和结论如下:(1)对 Spark RDD((Resilient Distributed Datasets)进行空间维度上扩展,对点、线和面构建了相应的Spatial RDD,支持海量空间数据读写、空间坐标转换和分区空间数据索引。提供空间拓扑查询、空间K邻居查询和空间连接查询三个常用的空间查询模块,通过搭建Hadoop/Spark计算集群,验证了 Spatial-Spark在处理海量空间数据方面的优势。(2)使用新浪微博API获取全国范围内微博POI数据,对其进行同位模式挖掘。首先分析同位模式挖掘算法的关键,使用Spatial-Spark对全连接算法进行并行化设计。对上海、武汉和重庆三市二阶模式进行比较,不同城市呈现不同模式;选择距离阈值d = 500m和空间参与度阈值0.6,对北京市微博POI类别进行同位模式挖掘,结果显示阶数越高越呈现商业聚集模式,其中最高六阶模式为(KTV,中餐厅,咖啡厅,甜品店,美容美发店,酒吧)。(3)根据全国新浪微博用户在2016年春节期间的空间位置数据,使用Spatial-Spark构建全国城市之间人口流动网络图。首先计算每个城市人口流入量、流出量和流入流出比,发现全国城市在春节期间人口流动呈现多样性;然后采用PageRank算法计算城市在人口流动网络图中的权重,发现城市权重与城市GDP发展的存在相关性,并根据权重将中心城市划分四个层次;最后对社群挖掘算法进行并行化改进,对人口流动网络图进行社群挖掘,发现城市联系紧密性与省份有关,地理位置对其影响很大,但也存在突破地理空间位置限制的城市。
其他文献
汽车的普及在方便人们出行的同时,对城市交通也是非常严峻的考验,GPS车辆监控系统可以在现有条件下实现对人、路、车的有效监控和科学调度,而精准的定位数据是GPS车辆监控系统进
入秋以来的第一场大雪,让边城乌鲁木齐的空气分外清新。10月30日,在全疆各族人民瞩目和全社会的高度关注中,中国共产党新疆维吾尔自治区第八次代表大会圆满完成了各项预定任