论文部分内容阅读
随着对地观测、移动GIS、互联网、物联网等技术的成熟以及GML使用领域不断拓展,GML空间数据正在井喷式增长,其数据量正在从GB级跃升至PB乃至EB级,大GML数据时代正在来临。而传统空间数据库的计算及I/O能力难以满足大GML数据所需的高性能处理需求。近几年流行的云计算技术拥有超大规模、高可扩展性、高可靠性和通用性等特点;同时No SQL在大数据背景下朝气蓬勃,它是同时支持结构化和半结构化数据存储的一种非关系型分布式数据库。因此,云计算技术和No SQL技术为半结构化大GM空间数据的并行存取问题赋予了全新的解决途径。本文利用开源云计算平台Hadoop以及分布式数据库HBase研究了大GML空间数据在分布式计算环境下并行存取的关键技术。主要借助Hadoop平台及HBase等软件对大GML空间数据的存储与查询做了以下几点研究。(1)分析现有空间数据划分算法,结合传统GML存储管理思想和GML数据所拥有的特点,兼顾地理要素几何以及拓扑关系等的完整性,研究适合云计算平台下大GML空间数据动态划分算法策略。(2)结合现有云计算技术及No SQL技术,设计了适合在HBase中存储GML空间数据的一种存储模型;分析Hadoop的分布式文件系统架构及其数据副本的放置策略,改进HDFS默认数据副本放置方法,并对分布式文件系统进行扩展使其能够确保地理要素的几何完整性。(3)深入研究传统空间数据索引机制,综合并行空间索引算法和GML空间数据划分算法,基于四叉树和R树索引机制设计了一种适合GML空间数据的两级并行空间索引结构。(4)分析GML数据所具有的特点以及Map Reduce并行计算模型;并结合HBase数据库与传统空间数据库的查询优化技术;然后综合考虑GML数据分布式存储时采用的划分策略,研究云平台下适合大GML空间数据并行查询算法及策略。最后,通过实验测试并对其性能及效率进行分析,得出本文设计的GML空间数据划分算法、存储模型、并行索引机制和查询算法都具有良好的性能。