论文部分内容阅读
近年来,移动传感器和无线网络的迅猛发展催生了大量带有地理空间信息的移动数据,这些移动数据具有持续到达、内容无限增长的流质特征,被称为时空流数据。由于时空流数据具有上述特点,传统的空间数据库的理论技术方法难完成实时计算,时空流数据的实时处理、分析、挖掘成为了国内外GIS的研究的热点和难点。时空流的计算速率表示单位时间内所处理流数据元组的数出量,是评价时空流处理方法优劣的重要标准。本文围绕如何提高时空流数据实时处理的计算速率问题,从模型表达、数据组织、查询优化等方面出发,构建基于基调代数的移动对象流质数据模型,设计应对频繁更新时空流概要数据结构,并提出利用边缘计算框架的流式空间大数据分布式空间计算方法,从而建立一套包含时空流数据模型表达、空间算法实现和时空流大数据并行化、边缘计算环境下时空流中心分散化处理的理论、技术、方法体系,为提高时空流计算速率提供一套完整的解决方案。本文的具体研究内容如下:(1)详细阐述基调代数表达方法,分析基调代数表达的移动对象抽象数据模型类型体系和操作算子,区分了离线数据和在线数据两种数据类型,提出从离线移动抽象数据类型向在线时空流数据类型的提升方法,构建时空流数据模型。(2)针对无约束空间和路网约束条件下移动对象运动特征,设计两种不同抽象数据模型离散化方法。为了达到提高时空流更新、查询计算速率的目的,无约束空间下,在传统空间索引的基础上添加二级索引完成自底向上更新方式;路网约束空间下,设计相应的路网节点、边界表并提出基于更新消息的CKNN算法,最终分别实现路网约束空间和无约束空间下的时空流数据概要数据结构设计。实验结果表明,无约束环境下,空间驱动型空间索引(网格索引)比数据驱动型空间索引(R树索引)具有较高的计算速率,更加适合移动对象的频繁更新;路网约束环境下,本文提出的UCKNN算法与IMA算法和CKNN算法相比具有更高的计算输出率。(3)针对移动对象单数据集内部空间查询(范围查询、邻近查询)和多数据集之间的空间计算(空间连接查询),提出两种时空流大数据分布式计算方案,探索影响时空流数据处理计算速率的多个因素并验证方案的可行性,以提高时空流数据计算速率。实验证明,应用四叉树作为二级索引,在不同的分区网格大小、移动对象数量以及不同比例下的更新、查询混合流都具有较好的计算速率。(4)针对时空流数据源地理分布广泛产生的大量网络宽带消耗问题,指出传统云中心处理模式在实时计算上的不足引入边缘计算模式,基于此将边缘集群部署于北京、杭州、郑州和湖州四地,从网络传输效率、边缘集群数量和本地、全局任务比例等多个角度进行时空流处理计算速率的探索性实验,进一步探究在边缘计算模式下时空流实时处理的计算速率变化规律。研究及结果表明,本文提出的时空流抽象数据模型能够表达通用的时空流数据对象表达、移动对象空间索引能应对移动对象高度频繁的数据更新、时空流分布式处理方法能在大数据环境下实时完成空间数据计算、边缘计算范式下的时空流实时处理方案能有效的解决地域分布广泛的数据源产生的时空流数据的快速处理问题,具有重要的科学和现实意义。