论文部分内容阅读
聚类是一种重要的数据分析手段。通过聚类分析,人们能有效地发现隐含在数据集中的数据分布特性,从而为进一步充分、有效地利用数据奠定良好的基础。随着信息技术的迅猛发展,聚类所面临的不仅是数据量越来越大的问题,更重要的还是数据的高维度问题。但是,受“维度效应”的影响,许多在低维数据空间表现良好的聚类方法运用在高维空间上往往无法获得好的聚类效果,这对高维数据聚类分析技术提出了很大的挑战。高维数据聚类是聚类分析技术的重点和难点,基于谱聚类的子空间聚类方法是实现高维数据聚类的有效途径。子空间聚类的目的是将来自不同子空间的高维数据分割到本质上所属的低维子空间,它是高维数据聚类的一种新方法,在机器学习、计算机视觉、图像处理和系统辨识等领域有广泛的应用。本文针对高维数据的子空间聚类问题给出了 一些新的聚类模型,主要工作包括以下几个方面:1、通过分析自表示系数矩阵与聚类指标矩阵之间的关系,我们提出了一个新的相似度学习和子空间聚类的统一极小化框架——基于Direction-Grouping-Effect-Within-Cluster的结构稀疏子空间聚类(SSDG)。在SSDG中,为了让本质上属于同一子空间的数据高效地聚合在一起,我们给出了direction-grouping-effect-within-cluster(DG)概念。基于DG,我们设计了一个自表示系数矩阵和聚类指标矩阵耦合的新正则项。该正则项使自表示系数矩阵和聚类指标矩阵具有以下期望的性质:当数据来自相同的子空间时,它们有相同的标签,此时聚类指标矩阵迫使自表示系数向量有大的余弦相似度,或DG;另一方面,当自表示系数向量具有大的余弦相似度时,自表示系数矩阵迫使数据具有相同的聚类标签。将新的正则项融入到结构稀疏性子空间聚类(结构稀疏子空间聚类仅考虑了相似度矩阵的结构稀疏性),我们提出了 一个新的统一最小化框架—-SSDG。SSDG不仅考虑了相似度矩阵的结构稀疏性,还考虑了DG。将模型应用在几个常用的数据集上,实验结果表明我们的方法在揭示高维数据的子空间结构方面优于其它先进的方法。2、通过分析相似度矩阵和标签的判别性和一致性,我们提出了一个新的子空间聚类的统一优化框架—-判别一致性子空间聚类(DCSC)。在DCSC中,为了让同一类数据点的相似度矩阵具有一致性以及不同类数据点的标签具有判别性,我们给出了一个新的正则项,该正则项耦合了标签和相似度矩阵。由于结构稀疏子空间模型仅考虑了不同类数据点的相似度矩阵的判别性及同类数据点标签的一致性,于是我们将标签引导的新正则项与结构稀疏子空间聚类中的结构稀疏正则项结合,提了出了 DCSC模型。它使得相似度矩阵以及标签同时具有一致性和判别性。对常用数据集的实验表明,我们的方法在揭示高维数据的子空间结构方面比一些先进的两阶段子空间聚类方法和统一结构稀疏子空间聚类方法表现更好。3、稀疏谱聚类改进了传统的聚类方法,通过引入稀疏正则化使隐相似度矩阵具有聚类判别能力,然而,它是没有充分利用相似度矩阵和数据标签之间关系的两阶段法。结构稀疏子空间聚类将相似度矩阵和聚类指标矩阵结合成一个统一的框架,从而优于两阶段聚类方法,但是它没有考虑隐相似度矩阵的稀疏性。我们利用数据的相关性给出了一个新的自适应稀疏正则项来增强隐相似度矩阵的聚类判别特性,从而克服了稀疏谱聚类中稀疏性惩罚的盲目性。将新正则项与结构稀疏子空间聚类相结合,提出了新的统一优化模型一一判别增强谱聚类(DESC)模型。该模型增强了聚类判别能力,具有较好的聚类性能。对常用数据集的实验表明,该方法在揭示子空间结构方面优于现有的两阶段方法和统一的结构稀疏子空间聚类。4、稀疏谱聚类利用稀疏结构先验逼近K-块隐相似度对角矩阵,这是一种间接求块对角矩阵的方法。而且稀疏谱聚类是非凸的,很难直接求解聚类指标矩阵。针对这些问题,我们给出了块对角矩阵诱导的正则项,该正则项直接寻求块隐相似度对角矩阵。将新正则项与谱聚类模型相结合,利用不同的条件,提出了两种新的模型,它们都称为判别增强谱聚类(DESC)模型。针对每个模型,分别给出了一种直接求解聚类指标矩阵的有效算法。在数据集上的实验验证了这两个模型的有效性。