论文部分内容阅读
近年来,随着我国空天地立体观测技术的飞速发展,高精度、高频度、大覆盖的超海量地理时空数据呈几何级数爆炸式增长,海量地理时空数据的价值挖掘愈发迫切。聚类作为数据挖掘最主要的方法之一,已成为学术界研究的热点。而面对超大规模地理时空数据的聚类分析,特别是精度不断提高的高分辨率遥感影像及规模不断增加的时空点数据,现有GIS聚类方法欠缺一个用于统一表达地理时空大数据高效聚类过程的聚类框架模型,时空聚类理论和技术面临严峻挑战。本文针对现有聚类方法普遍存在的数据组织不统一、数据划分关联性丢失、大规模数据计算效率低、聚类效果差等缺陷,从数据组织、数据存储、数据划分及计算范式四个方面构建地理时空大数据高性能并行聚类模型体系。综合考虑高分辨率遥感影像中存在的地物对称性和光谱相似性以及时空点数据中存在的宏观连续、微观离散的时空模式,为高分辨率遥感影像及时空点数据分别选取代表性聚类方法,克服现有方法中存在的缺陷,在上述并行聚类模型下进行实现高效聚类。具体研究内容如下:(1)设计包含数据组织、数据存储、数据划分及计算范式的地理时空大数据高性能并行聚类模型体系,统一表达矢量和栅格数据的并行聚类过程。在数据组织层面,将栅格数据的各个波段、影像像元值和矢量数据的各个时空特性作为组织维度,提出多维超立方体数据模型;在数据存储方面,将组织模型进一步抽象成分布式数据仓库的GeoTable结构,进而实现数据统一存储;在数据划分层面,提出基于代数理论的多维超立方体数学表达与空间计算方法,建立基于连接元的数据划分模型;在并行计算方面,对作业执行和数据传输过程,设计基本操作和通信模式之间相互作用的矩阵表达,建立大数据高性能并行计算范式。(2)针对栅格数据,以高分辨率遥感影像为代表,选择基于划分的聚类算法。综合考虑地物对称性及光谱相似性,改进了点对称距离相似性度量。提出基于遗传算法的全局最优解搜索算法,设计基于连接元的高分辨率遥感影像分布式数据结构,在并行聚类模型下实现栅格大数据的高效聚类。(3)针对矢量数据,以时空点数据为代表,选择基于密度的聚类算法。使用泊松分布拟合时空事件发生概率,重定义时空事件可达性,建立时空事件聚类模型。基于可变时间窗口,提出数据重排扫描算法。设计N维空间下冗余感知格网,建立基于连接元的数据连接模型,在并行聚类模型下实现矢量大数据的高效聚类。研究及实验结果表明,本文提出的地理时空大数据高性能并行聚类模型,能有效结合并行计算、分布式计算等高性能计算技术与空间计算理论方法,实现大规模地理时空数据的高效聚类。针对栅格大数据聚类算法的改进,有效增强了对称性地物的提取能力并大幅提高了聚类速度和效率。针对矢量大数据聚类算法的改进,既大幅提高聚类效率,更有效解决了现有研究在时空数据聚类中存在的时间域与空间域割离、多密度簇无法识别的难题。