论文部分内容阅读
随着信息技术的快速发展,各行各业都产生了大量的高维数据,如何挖掘隐藏在高维数据中的宝贵信息是现代机器学习研究的一个热点。然而高维数据存储量巨大,计算代价十分高昂,使得传统的机器学习算法面临着巨大挑战。这就是人们常常说到的“维数灾难”问题。降维和子空间聚类都能把数据从高维空间映射到低维空间中,从而对数据进行概括和抽象;降维旨在保留数据中具有区分性的特征,去除一些共性冗余特征,可以看成是一种特殊的聚类;子空间聚类则是用少量的分组去对海量的数据进行抽象和概括,也能看成是一种特殊的降维。随着数据规模的不断增大,这两种方法得到了广泛的研究与应用。本文在分析了现有半监督降维方法,子空间聚类方法的发展现状和现存问题的基础上,围绕约束权重学习、图的构造和优化、字典学习等方面针对降维,和聚类方法进行了研究,本文的主要工作和创新点如下:1.提出了基于加权成对约束的自适应半监督降维方法(ASSDR-PPC),ASSDRPPC对成对约束进行类似概率性质的加权来利用监督信息,并通过构造稀疏图的方式保留数据的内部结构信息。并将投影矩阵的计算,图的构造,以及约束权重优化融合成一个整体进行降维学习。实验分析表明ASSDR-PPC要优于其他相关的半监督降维方法。2.提出了基于潜在空间字典学习的低秩稀疏子空间聚类方法(LRSSC-LSDL)。通过引入字典学习的概念,加强对数据的表达能力,同时使用潜在空间学习来降低计算低秩稀疏重构矩阵的时间代价。实验表明,当在数据被大量污染的情况下,LRSSC-LSDL要优于现在主流的子空间聚类方法。3.针对LRSSC-LSDL不能利用监督信息的不足,将LRSSC-LSDL与加权成对约束结合起来,提出了基于加权成对约束与字典学习的半监督聚类方法SSLRSSC-LSDL。该方法能同时进行字典学习,潜在空间学习,约束权重学习来获得低秩稀疏表示用于聚类。实验表明SSLRSSC-LSDL能够比传统的子空间聚类算法,以及基于成对约束的半监督聚类算法,更加具有优越性。