论文部分内容阅读
当今,大数据的价值已经得到全球公认,并逐渐成为全球各国的基础型战略资源。作为大数据的重要组成部分之一,时空大数据由于能够为各类信息资源在三维空间和时间交织构成的四维环境中提供统一的时空基础,成为其他各类大数据集成共享和服务的基础信息。相比原有的地理信息数据,时空大数据在数据的体量、来源获取方式、更新周期、结构类型、价值密度等等众多方面,都有着极大、甚至是颠覆式的不同,这使得原来的地理信息服务提供方法,已经远远不能够满足时空大数据服务的新要求,迫切要求创新相关技术方法。时空大数据服务的核心目标是如何将时空大数据相关的资源内容以更加灵活、快速等更加高效的形式进行服务交付,为用户的相关生活生产活动提供时空基础支撑。围绕这一目标,国内外相关学者已经在数据处理、数据挖掘、数据可视化等方面开展了相关研究,但在服务架构、高效存储、空间匹配、服务分发等服务的高效性方面有所欠缺,对应的服务平台也仍旧处于技术探索阶段。为此,本文面向时空大数据在服务架构,以及存储、匹配、分发等若干关键技术和平台构建方面,对时空大数据的高效服务展开深入研究。本文主要在以下几个方面进行了相关的研究工作:(1)设计并实现了一种高性能时空大数据服务架构。良好的服务架构是时空大数据实现高效服务的基础。现有针对时空数据的服务架构大多是原有单体式面向服务的架构,在开发和服务初期易于部署和扩展,但随着服务体量的逐渐扩展,后续难以提供灵活地扩展更新和高效的服务响应等能力。为此,本文采用微服务理念,设计并实现了一种高效的时空大数据服务架构,构建了顾及时空大数据服务特点的高效微服务API网关,提出了高效API匹配算法、基于空间热度的负载均衡算法和基于开放标准的空间数据进程间通信协议,解决了原有服务架构在应对时空大数据时服务时扩展困难和服务响应慢等问题。通过对比实验显示,利用本文提出的时空大数据服务架构,对服务性能、服务负载均衡、服务间通信等能力提升方面更具优势、效率更高。(2)设计并优化了时空大数据存储检索策略。实现多源异构的时空大数据的高效存储检索,是时空大数据服务有别于传统时空数据服务的关键环节。现有时空数据大多采用具有空间管理能力的关系型数据库进行管理,对于多源异构的时空大数据存储和管理存在流转难度大、存储不统一、效率不高等问题。为此,本文针对现有时空大数据存储的特点和要求,设计实现了分布式环境下时空大数据存储架构和索引策略,研究了基于NoSQL数据库的矢量、栅格数据存储索引和矢栅一体化多级检索等方法,解决了空间关系数据库在时空大数据分布存储、动态增长、索引维护等存储管理时效率不高的问题。与关系型空间数据库存储检索对比实验显示,本文基于NoSQL数据库Cassandra的分布式时空数据存储与检索策略,在时空大数据的查询效率上有明显提升。(3)丰富了基于地名地址的时空大数据一致化属性处理和地名地址提取方法。在实现各类时空大数据存储检索基础上,需要对其进行统一的空间匹配,才能够对外提供具有一致时空基准的各类服务。由于原有时空数据本身都具有空间坐标信息,当面临来源各异的却具有空间信息特征的其他时空大数据时,由于缺少统一的空间定位属性,难以进行快速高效的匹配上图。因此,本文面向具有空间属性字段的多来源公共专题数据,设计了典型专题数据空间属性一致性表结构,面向仅具有隐含空间信息的各类非结构化数据,拓展实现了基于地名基因的地名地址提取算法。通过对实际数据的地名地址提取和匹配上图,验证了本文提出的时空大数据一致化属性处理和地名地址提取方法能够有效实现缺少空间坐标信息的其他时空大数据的匹配上图。(4)设计并实现一种时序影像瓦片金字塔快速构建方法。分发服务是直接面向用户提供时空大数据服务的关键环节,其核心就是以最快的速度在线提供最新的数据资源。以海量时序遥感影像为例,高效的分发服务就是如何快速的提供影像瓦片并在线发布。随着影像图幅数、影像数据量的不断增大,现有方法由于构建算法和并行策略不佳,导致构建过程整体耗时长、效率低。为此,本文设计实现了海量时序影像瓦片金字塔快速构建方法,提出时序影像瓦片切分、同位瓦片融合、多线程并行策略等方法,解决了原有基于影像融合时序瓦片金字塔构建方法整体耗时长、效率低的问题。通过对实际时序影像数据瓦片金字塔构建的对比实验验证,文本所提方法在进行时序影像瓦片金字塔构建时,耗时少,整体效率较现有方法有显著提升,具有较好的可行性。(5)搭建服务平台,并进行实际部署运行将本文研究的基于微服务的高效时空大数据服务架构和三项关键技术接入,基于NewMap软件提供的核心GIS功能,设计了时空大数据平台的整体体系框架,并对其中的核心功能算法进行了实现。通过在智慧城市时空大数据试点建设项目中的实际应用,验证了本文关键技术及对应平台的服务效果,为后续相关研究提供了参考。