论文部分内容阅读
在数字化信息时代,具有高维度的大规模数据不断出现,如超高清图像、视频序列和生物信息数据等。由于采集样本点少、部分信息缺失和噪声污染大等原因,这些高维数据一般具有稀疏性、强噪声和冗余性等特点。如何从这些不理想的原始数据中分离出人们感兴趣的信息,是模式识别、机器学习和数据挖掘等领域的研究热点,也是本文的主要关注内容。子空间学习模型将高维数据压缩到低维的子空间,从而提取出原始数据的结构信息。传统的子空间学习模型,如主成分分析等,在处理高维数据时效果不理想。在稀疏表示和压缩感知等理论的推动下,基于稀疏和低秩约束的子空间学习模型开始兴起。使用稀疏和低秩约束能表达高维数据的特点,具有更强的鲁棒性,在实际应用中取得了令人满意的结果。鲁棒主成分分析是基于稀疏和低秩约束的基础模型,本文主要围绕该模型进行研究。首先系统地回顾了子空间学习的相关模型和算法,包括主成分分析和鲁棒主成分分析,然后对鲁棒主成分分析进行改进,以提高模型的计算效率和适用性。具体地,本文的研究概况如下:第一,提出了鲁棒主成分分析的快速求解算法。鲁棒主成分分析在求解中需要对核范数进行优化,每次迭代过程中都要计算矩阵的奇异值分解。奇异值分解的复杂度很高,制约了模型的求解效率。随机奇异值分解将原始矩阵投影到低维空间,在进行部分奇异值分解时能降低矩阵的规模,从而提高运算速度。所提算法使用随机奇异值分解,能在保证精度的前提下,大幅改善模型的求解效率。第二,提出了列稀疏约束的低秩矩阵分解模型。鲁棒主成分分析使用1l范数对稀疏矩阵进行约束,不能准确地描述结构化噪声。针对数据中含有列噪声的情形,引入l2,1范数作为模型的稀疏约束。此外,利用矩阵分解的思想,使用因子矩阵对矩阵的秩进行约束,避免了奇异值分解过程,进一步提高了算法的求解效率。所提模型结合l2,1范数和矩阵分解,能分离出原始数据中的列噪声,同时提高了运算速度。综上所述,针对鲁棒主成分分析模型的求解效率和适用性,本文提出了快速求解算法和优化模型,并使用随机矩阵、图像去噪和视频背景建模等进行仿真。实验结果表明,改进的算法具有明显的速度优势,改进的模型能在快速求解的同时分离出数据中的列噪声。