论文部分内容阅读
随着物网技术的快速发展和大数据时代的到来,高维数据在图像处理、模式识别、计算机视觉以及机器学习等领域无处不在,这对传统的聚类分析方法提出了严峻的挑战。子空间聚类作为处理高维数据聚类问题的重要技术和方法,为高维数据聚类的有效实现提供了途径。在众多的子空间聚类方法中,基于稀疏表示的谱型聚类方法由于其优越的聚类性能、易处理和计算的有效性等特点受到了国内外学者的广泛关注,已成为子空间聚类研究的热点,并且在图像的表示、分割、运动分割以及图像的显著性检测等问题上取得了成功的应用。本文基于稀疏表示的谱型聚类方法框架,针对现有模型中存在的一些问题,在提升稀疏性、数据误差处理、算法的有效实现、模型推广以及应用等方面进行了探讨和研究。本文的主要贡献概述如下:1.针对稀疏子空间聚类问题中,因使用l1范数代替l0范数,在某些情况下易导致在大的表示系数上造成大的偏差,造成聚类性能退化的问题,提出了一个l0范数的广义非凸近似。理论证明所提出的非凸近似比l1范数能够更紧致地逼近l0范数。此外,所提出的广义非凸近似将常见的一些l0范数的近似统一到同一个解析结构,并且给出了一大类新的近似。结合所提出的广义非凸近似到子空间聚类,提出了一个新的优化规划。仿真数据和真实数据集上的实验结果表明所提出的广义非凸近似有助于提升聚类性能。2.针对实际应用中,聚类问题通常涉及到多个变量和约束,易导致算法分析过度复杂的问题,为简化算法分析,提出了将涉及多个变量和约束的不同的实际聚类问题规划为一个统一的lp(0<p<1)最小化结构。此外,针对所提出的统一结构,提出了一个快速有效的迭代算法,并理论性地证明了算法的收敛性。仿真数据和真实数据集上的实验结果进一步验证了所提出的方法和模型的有效性。3.针对因l0范数的离散性而导致一般的连续优化技巧方法无法应用于l0最小化问题,以及用l1范数替代l0范数在某些情况下易造成过度松弛的问题,提出了一类平滑的l0范数的近似,使得连续优化技巧得以适用,并且所给出的平滑近似比l1范数更渐近于l0范数。结合到子空间聚类,提出了一个新的仿射子空间聚类算法,并获得了提升的聚类性能且对噪声鲁棒。基于梯度下降和渐近投影的优化方法使得所提出的算法得以快速有效地实现。真实数据集上的实验结果进一步验证了所提出方法的有效性。4.针对现有的基于表示的谱型聚类方法通常无法排除不重要的数据点(不重要的数据点一般指的是被噪声(或者极端光照条件)重度污染或者冗余的样本)参与其它数据点的表示,从而导致了一个次优的表示矩阵,造成聚类性能退化的问题,提出了一个新的子空间聚类模型,即联合最小化l1,2和l2,1范数(SCJL12-21)。通过对表示矩阵强制l1,2正则化,排除不重要的数据点参与其它数据点的线性表示;同时,对误差矩阵强制l2,1正则化,抑制存在于数据中特定样本(包括异常值)的影响,从而获得一个更好的表示矩阵。最后,应用谱聚类方法到所获得的表示矩阵,推导数据点的聚类分配。同时从理论和实践两个方面研究了基于增广拉格朗日乘子法(ALM)的算法的收敛性。所提出的方法在处理人脸聚类和运动分割两个实际问题中取得了成功的应用。