论文部分内容阅读
随着多媒体技术的不断发展以及存储技术的提高,人们获取了大量的高维信息,而数据高维特性的存在将影响计算机的数据处理能力,影响模型的效率。在近年来的研究中,如何降低高维数据的影响已经成为一个重要的研究方向。传统的数据降维算法基本为线性降维算法,而在流形学习理论中指出数据呈流形分布,且部分数据线性不可分。流形学习的前提是假设数据在全局非线性的或局部线性的情况下,通过学习数据内部的几何结构,使得样本在低维空间仍然可以维持原始的数据结构。若算法引入稀疏回归则图的映射矩阵具有低秩性。本文从多方面探讨了流形学习与稀疏回归的算法思想,首先从邻域图的构建入手,对KNN构图算法进行了改进,采用核化的思想将原始数据映射到再生核希尔伯特空间(RKHS),并在该特征空间对样本进行邻域图的构建。同时算法引入无偏估计量l2,1范数,使该矩阵具有自适应稀疏性,不仅使得构图过程中不需要对近邻参数K进行初始化,而且有效降低了过拟合现象。其次对特征映射算法进行了构建,引入了四种其他特征映射算法,分别对算法的基本思想、基本步骤及特性进行了对比分析及总结。深入研究了流形学习与稀疏回归的非线性嵌入算法,并将其与改进的构图算法相结合,利用调节因子λ共同构造了非线性嵌入算法。该算法不仅降低了之前映射算法对图结构的过度依赖性,而且使得投影矩阵P具有稀疏性,提高了算法鲁棒性及抗噪声性能。最后,将文章研究的算法应用到监督学习中,并与引入的多种算法进行了性能对比。实验表明,本文研究的流形学习与稀疏回归的非线性图嵌入算法,在复杂场景数据集和简单数据集上具有较高的稳定性及优越性。其中在ORL Face和Coil-20数据集上具有较好的识别性能。相较于其他维数约简方法,本文方法具有输入参数少、算法稳定性高及识别准确率高的优势。