论文部分内容阅读
随着科学技术的快速发展,我们已经身处数据大爆发的时代。现实世界中许多问题涉及到高维数据的集合,如图像、视频和Web文档、DNA序列等等。这些高维空间的数据不仅增加了算法的运行时间和内存的需求量,而且由于噪声的污染和样本数量的不足给问题的处理带来了一定的困难。值得庆幸的是,经过分析与研究发现高维数据的本质结构并不是毫无规律可言的,它们通常分布在若干个低维子空间的并上。利用子空间聚类能够挖掘现实空间中实体原有的空间集聚模式,揭示世界万物的分布规律、提取自然界实体的群体空间结构特征等。近年来,低秩表示(Low-Rank Representation,LRR)在图像聚类、机器学习、运动分割和特征提取、人脸识别等方面得到广泛应用,在探索低维子空间结构方面取得了显著的成绩。对于一个给定并含有稀疏错误的数据集,LRR的目的在于寻找所有数据共同的最低表示。在现实世界中,数据通常环绕分布在高维空间的低维子流形上。然而,LRR低秩表示模型偏离秩函数而且没有考虑数据的内在几何结构,从而导致高维数据聚类精确度低。针对上述问题,本文在综合分析低秩表示模型及数据的内部几何结构基础上,提出了一种基于拉普拉斯正则化双曲正切函数低秩子空间聚类算法(Laplacian Regularized Hyperbolic Tangent Function Low-Rank Subspace Clustering Algorithm,LRHT-LRSC)。论文主要完成了以下工作:提出了一种基于拉普拉斯正则化双曲正切函数低秩子空间聚类算法(Laplacian Regularized Hyperbolic Tangent Function Low-Rank Subspace Clustering Algorithm,LRHT-LRSC)。该算法利用双曲正切函数代替核范数以便更紧凑的逼近秩函数,并且利用拉普拉斯正则项刻画数据本身的几何结构,提高了数据聚类的准确率,然后构建数据样本的系数矩阵和相似矩阵,最后利用谱聚类方法得到最终的聚类结果。在合成数据集、真实数据集Extended Yale B和Hopkins 155上的对比实验结果表明,LRHT-LRSC提高了聚类的准确率和鲁棒性。虽然LRHT-LRSC算法降低了高维数据聚类的错误率提高了聚类算法的鲁棒性,但是却增加了算法的时间复杂度。针对这一问题,通过对Matlab分布式并行处理进行研究以及对SPMD并行方法分析、改进,充分利用改进的SPMD并行方法来处理因串行计算而造成LRHT-LRSC算法运行速度慢、耗时长的问题,进而实现多核并行化LRHT-LRSC。实验结果表明,与传统方法相比,多核并行的方法在保证精确度和稳定性的前提下,能有效缩短聚类时间。