论文部分内容阅读
在数据挖掘、模式识别和计算机视觉的很多实际问题中,数据都呈现出高维数的特点。数据的高维性掩盖了数据的本质特征。因此,对高维数据进行降维,将其用简洁的低维数据表示,从而提取隐藏在高维表象下有用的和感兴趣的知识显得尤为重要。大体上讲,高维数据的降维技术可以分为线性降维和非线性降维。线性降维技术提出较早,发展较为成熟,但是由于其在实际应用中的诸多限制和不足,非线性降维技术逐渐成为当前研究的热点和主流方法。作为非线性降维技术的一种,基于全新流形假设的流形学习技术,由于具有认知上的理论支持,近年来格外受到研究者的关注。正是在这一背景下,本文坚持面向应用,针对现有流形学习研究的不足,展开研究工作。本文的主要工作和所取得的创新如下:1、针对现有算法对邻域大小参数敏感的问题,提出了一种自适应的邻域选择算法。现有流形学习算法大多依据流形的局部光滑特性,采用局部线性拟合来挖掘个数据的流形结构。这些方法都涉及到局部邻域构建的问题,且都对邻域大小参数比较敏感。考虑到流形学习算法构建邻域的目的,即采用线性拟合来逼近所构建的局部邻域样本集,本文提出了基于局部线性结构的邻域选择算法。该算法在保证所构建局部邻域具有线性结构的前提下,能依据流形在各局部的几何结构,自适应地确定邻域大小,从而保证所构建的邻域能真实地反映数据所在流形的局部几何结构,减小线性拟合误差,提高流形学习算法的性能。2、针对局部切空间对齐算法对噪声敏感问题,提出了一种对噪声健壮的流形学习算法。在实际应用问题中,采样数据往往存在噪声,从而破坏了数据的局部的平滑结构,使得采样数据偏离数据所在的低维流形。而现有的流形学习算法都是建立在严格的流形假设基础之上,因此噪声的存在将严重影响现有流形学习算法的性能。本文特别针对局部切空间对齐算法,深入地分析了噪声影响算法性能的机制,提出利用健壮PCA取代该算法中奇异值分解来计算数据的局部切空间坐标,并分别从三个方面改进该算法,使得在具有噪声的情况下,依旧能获取数据的真实流形结构,从而解决了局部切空间对齐算法对噪声敏感的问题。3、针对具有缺失像素的图像集,提出了一种学习其流形结构的流形学习算法。从目前的文献来看,尚未见关于从具有缺失属性的数据集中学习流形结构的方法。作为一种尝试,本文研究了如何学习具有缺失像素图像集的流形结构的问题。通过深入分析具有流形结构的图像集的特点,依据图像集中像素之间存在的强冗余性,提出了一种只利用已知像素进行图像主成分分析的EM-PCAM方法,然后将该方法无缝集成到局部切空间对齐算法中,使其具备学习其流形结构的能力,初步解决了具有缺失像素图像集的流形学习问题。该方法对进一步研究具有缺失属性数据集的流形学习问题具有一定的借鉴作用。4、结合对高维数据的聚类任务,提出了聚类保持的嵌入和非线性判别嵌入两种非线性降维方法。经典流形学习算法是一种无监督的学习方法,单纯地以挖掘数据集的内在非线性流形结构为目标,而实际应用中人们往往更关心对数据的聚类和分类等问题。因此本文研究了将高维数据的聚类和流形学习算法结合起来的问题,分别提出了CPE和NDECSR两种非线性降维技术。CPE方法试图在保持原始数据的聚类结构基础上来实现降维,具体则是通过保持健壮的基于路径的相似性来获取数据的非线性低维表示。而NDECSR方法通过引入谱正则化技术,能同时获取数据的低维坐标表示并实现对高维数据的聚类。5、针对人脸数据集的流形结构,提出了基于大间距判别准则和图像矩阵双向投影的人脸特征提取方法。近年来越来越多的研究表明人脸数据存在低维的流形结构。如何利用人脸的流形结构来提高人脸识别性能是一个有意义的研究问题。本文通过在计算散度矩阵时引入能刻画数据流形结构的Laplacian矩阵来达到利用人脸流形结构的目的。同时为尽量保持人脸图像的结构化信息,我们直接采用矩阵来表示图像并用矩阵的双向投影来实现特征提取。最后与传统的采用Fisher判别准则的方法不同,我们采用了大间距作为特征提取准则,从而保证了迭代求解过程的收敛性,解决了以往方法无收敛解的问题。