论文部分内容阅读
图论在许多数据挖掘应用中被当作自然数据模型,这是因为图论中的点_边结构和数据的实体_关系结构相一致。谱聚类就是建立在图论的基础上的无监督算法,它在聚类、图像分割等领域有较多应用。谱聚类算法处理数据集时,往往因其高维、复杂且有冗余而耗时耗力。由于深度学习近年来也获得广泛关注,它有能提取数据深层次特征的优势进而可以与谱聚类相结合。谱聚类算法首先需要根据数据集间的关系建立相似矩阵,该矩阵建立的好坏对后面的聚类效果有很大影响。所以如何有效利用数据集并构建相似矩阵,将其应用到图像分割上是本文主要探讨的问题。针对上述问题,本文具体所做工作如下:(1)谱聚类算法一般直接在原始数据的点对关系下构建相似矩阵,但原始数据往往高维复杂且有冗余。深度学习中的稀疏自编码模型正好可以提取数据集的高层结构,得到能反映原始数据最本质的特征,因此可以将数据预处理,得到深层次特征后再聚类。但是在建立相似矩阵时,并没有考虑到数据的流形邻域,且只是单一聚类。本文提出的算法通过对每个数据点进行线性重构,利用重构权值代替高斯核函数构建相似矩阵,同时将数据映射到聚类指标上以协调聚类指标,进而获得更精确聚类结果。(2)谱聚类算法聚类好坏很大程度上取决于相似矩阵的构建,传统谱聚类大多使用高斯核函数,但它对尺度参数很敏感。本文基于对尺度参数敏感的问题上,提出了新的基于加权密度的自适应谱聚类算法。该算法将数据点的加权K近邻距离作为尺度参数,尺度参数的倒数作为数据点所在密度,引入新的密度差调整相似矩阵,满足了同一流形或者同类数据密度接近的原则,使算法对参数不再敏感,而且对噪声也有一定的鲁棒性。(3)谱聚类算法应用到图像分割时,构建的相似矩阵是基于像素的,此时数据量过大,因此可以对图像做预处理。二次分水岭可以在保证原图像不被破坏同时得到较少像素的过分割图像,此图像正好可以用于后续的谱聚类工作。最后本文将得到的过分割图像作为图像输入,将基于加权密度的自适应谱聚类算法应用于图像分割处理中,通过定性与定量标准对算法做出评价。