论文部分内容阅读
随着数据获取技术的快速发展,数据呈现出多样化、海量化的发展趋势。针对空间信息的空间数据被大量收集,成为探索空间领域知识的根本途径和重要依据,迫切需要面向空间数据的空间数据挖掘技术来发现其中隐含的有用知识。作为空间数据挖掘的重要分支,空间聚类以其较强的实用性和高效性,成为相关领域的研究热点。本文在深入研究空间数据挖掘、空间聚类知识和现有方法的基础上,面向空间数据体现出的复杂性特征中的海量特征、高维特征、带障碍约束特征以及多尺度特征,研究高效的空间数据聚类分析方法。针对空间数据的海量特征,运用善于进行大规模数据聚类分析的经典K-Means算法进行聚类分析,对于其存在的k值预设及初始聚类中心随机选取导致算法准确率、效率不高的问题,利用空间数据的特点,提出一种基于最优划分的K-Means初始聚类中心选取方法,提高了海量空间数据的条件下K-Means算法进行聚类分析的运算效率和算法准确率;针对空间数据的高维特征,提出一种高效的基于模糊扩展的高维空间数据子空间聚类算法,该算法基于模糊集对确定聚类边界起决定作用的稀疏单元网格进行模糊扩展,考虑相邻网格内样本点的相关性,改善了高维数据子空间聚类不平滑、边界不明确、易产生无意义过度聚类的问题,高效进行高维空间数据的聚类分析;针对空间数据多障碍约束的特征,提出一种基于网格的带障碍约束空间数据分级聚类算法,算法继承了基于网格聚类算法的优点,能够处理任意形状的障碍物并产生任意形状的簇,同时,算法采用分级策略对考察数据集进行障碍条件下聚类分析,降低了计算样本点间障碍距离产生的算法时空复杂度,提高了障碍约束条件下空间数据聚类分析的效率;针对空间数据的多尺度特征,提出一种基于等密度线的空间数据多尺度聚类分析方法,该多尺度空间聚类算法借鉴等高线思想,利用考察样本集等密度线的天然尺度性进行尺度条件下的空间数据聚类分析。本论文面向空间数据的海量特征、高维特征、带障碍约束特征以及多尺度特征分别进行了空间聚类分析方法的研究,并通过仿真实验分别证明了方法的可行性、有效性和高效性。