论文部分内容阅读
地理数据服务是指能够提供对地理空间数据访问的Web服务,是Web服务技术在空间信息领域的应用。随着地理数据服务技术的不断完善与发展,以服务的方式实现对地理空间数据的发布、访问和操作成为技术的主流。目前,Web上分布着极其丰富的在线地理数据服务资源;而单个的地理数据服务所能提供的数据有限,无法满足实际的应用需求。面对急速增长的地理数据服务资源,出现了“数据丰富,集成使用困难”的局面。因此,人们迫切地需要一个面向Web的空间数据集成系统,来帮助人们获取Web上的空间数据资源并加以集成应用。面向地理数据服务的空间数据集成技术已经成为GIS领域和空间数据库领域研究的热点。目前,面向地理数据服务的空间数据集成技术的研究主要集中在集成系统的体系结构、集成机制和原型系统实现等方面,而对于集成空间查询处理技术的研究还不多见。论文借鉴了通用信息领域在集成查询处理方面的研究成果,以符合OGC标准的地理数据服务为研究对象,以城市空间信息服务应用系统的需求为牵引,对集成空间查询处理中的若干关键技术进行了研究,具体包括:面向GML的渐进式空间连接查询处理、集成多元空间连接查询处理以及集成k邻近查询处理等技术。并将研究成果应用于实际的系统中。本文的主要工作和创新点包括以下几个方面:(1)研究了面向GML的集成查询处理问题,提出了渐进式空间连接(PSJ)查询处理算法,针对传统渐进式查询处理框架应用于空间连接查询时所出现的数据滞留和频繁调度问题,提出了适应性过滤—提炼两步骤的空间查询处理策略,保证了PSJ算法在内存连接阶段的处理效率。(2)研究了PSJ算法的内存溢出问题,提出了一种基于驻留度的动态同步替换策略,该策略充分考虑了输入数据集的相对传输速度、空间对象的相对分布等因素,尽可能将未来利用率较低的数据调度到磁盘上,提高了驻留内存数据的利用率;研究了PSJ算法磁盘连接的优化问题,提出了一种基于BEA(Bond Energy Algorithm)的不完全连接算法,其核心思想是通过有效数据调度尽可能减少磁盘连接阶段冗余的I/O代价,提高了PSJ算法的性能。(3)深入分析了集成多元空间连接查询自身的特性,提出了一种通用空间连接图(GSJG)模型来表达任意的空间连接查询,并将集成多元空间连接查询的查询优化问题转化为GSJG的最优二元生成树搜索问题。在GSJG中,总能找到具有全局最优的查询执行计划,特别是针对包含环的复杂多元空间连接查询,该模型更加有效。(4)针对集成多元空间连接查询在内存阶段和磁盘连接阶段各自的查询处理特性,定义了相应的有效生成树,并研究了其代价模型。基于GSJG模型,提出了内存连接阶段优化的连接操作调度(OJP)算法和磁盘连接阶段最优查询计划生成(BUOST)算法,其基本思想都是枚举相应的有效生成树以获得最优操作调度顺序和查询执行计划。实际的应用验证了这种处理方法的实用性和可操作性。(5)针对集成k邻近查询,提出了一种数据源R树(GDSR树)索引结构和数据源过滤(GDSFilter)算法,GDSFilter算法在深度优先搜索GDSR树的过程中,依据查询点到地理要素集的最近距离和最大距离作为度量准则进行剪枝,有效过滤了与查询无关的地理数据服务;综合考虑了多种查询窗口与数据源数据空间的位置关系,改进了现有的候选地理数据服务k邻近查询实现算法,进一步减少了集成七邻近查询的数据传输量,提高了集成系统的查询效率。基于上述研究成果,论文最后构建了集成空间查询处理原型系统,并对原型系统进行改造,应用于上海城市空间信息服务应用系统,验证了所提出技术和方法的有效性和实用性。