论文部分内容阅读
现有网格空间多尺度聚类方法未能显式将尺度因子作为模型参数,难以实现尺度驱动的阈值自适应提取,导致聚类算法调参困难,从而无法全面挖掘空间数据分布模式。海量空间点数据蕴含的信息更加丰富且层次结构更加复杂,对聚类算法的参数设置与计算效率进一步提出了更高要求。针对上述问题,本文从数据尺度和观察尺度两种尺度维度,提出了一种适用于海量数据的多尺度聚类挖掘算法处理流程。该方法分别通过网格多分辨率和低通保边滤波器的尺度拓展机制实现数据尺度和观察尺度上的尺度变换,并在聚类算法中显式引入观察尺度作为模型参数,通过改进大津法实现多个观察尺度密度阈值的自动提取。本文主要内容如下:1)提取出两个影响多尺度空间聚类结果的尺度因子。本文从可塑性面积单元问题和遥感多分辨率影像识别问题引出数据尺度的定义,从信号的多尺度低通滤波处理引出观察尺度的定义。2)设计了多尺度聚类算法流程。根据数据尺度和观察尺度对聚类结果的影响,设计了两个维度联合的空间多尺度聚类算法整体流程。首先,算法根据应用需求,将原始空间数据划分为的多个数据尺度,然后针对每个数据尺度建立多个观察尺度上的聚类结果,最终形成多维多尺度的空间聚类结果。3)设计了低通保边滤波器以提取观察尺度低频信息。观察尺度的低频信息提取是多尺度聚类算法流程的一个关键步骤,本文针对常见的低通滤波存在的问题进行改进,设计了一种简化的低通保边滤波器。4)设计了基于尺度约束大津法的密度阈值提取。密度阈值提取是观察尺度迭代中的另一个关键步骤,本文针对大津法、直方图凹面分析法等阈值分割方法存在的问题,将观察尺度层级作为约束加入到目标公式中,实现了尺度驱动的密度阈值提取。实验结果表明,在聚类精度和算法时间复杂度方面,相比于DBSCAN聚类方法,本文算法能在精度损失较小的情况下,实现多观察尺度上参数阈值的自适应提取避免了调参过程,同时也能为其他算法的参数选择提供参考。且本算法时间复杂度低(O(n)),能够实现近实时的海量空间点聚类。在中国大陆基础设施POI的实际应用上,本文的多尺度聚类算法能够在一定程度上反映中国大陆多层次的经济结构,结果与观察者多层次的空间认知结果较为符合,能够一定程度上辅助海量空间点数据多层次空间结构的挖掘与可视化分析,具有一定的应用价值。相比于传统低通滤波,本文滤波方法具有良好的去噪保边效果,自适应多尺度密度阈值算法能够较为有效地捕捉数据集丰富的多层次信息,且计算复杂度低。该方法可用于各类海量空间点数据多层次空间结构的快速挖掘与可视化分析。