论文部分内容阅读
在信息呈爆炸式增长的现代,大数据的应用研究已经成为一个热门领域,数据冗余是大数据背景下后台数据分析面临的一大难题.稀疏主成分分析(Sparse Principal Component Analysis,简记为SPCA)作为高维数据降维的有效方法,是解决这个难题的一种途径,在机器学习、图像分割、自动翻译、数据挖掘、模式识别与基因表达数据分析等领域得到了广泛应用.因此,研究求解SPCA问题快速算法具有十分重要的意义.近年来,SPCA模型和算法吸引了众多学者的目光,取得了丰富的研究成果.本文依据SPCA优化模型的特征,从矩阵特征值问题着手,研究设计求解SPCA优化模型的分裂算法,得到如下结果:首先,本文设计了一种求解正交约束优化问题的快速算法.正交约束是主成分分析和特征值问题所具备的共同特征.正交约束的非凸性给算法设计与分析带来了巨大的挑战.为此,本文提出了一种投影梯度算法,该算法采用施密特标准正交化方法处理正交约束(可视为在约束集上的投影运算).将算法应用于矩阵特征值问题,其时间复杂度为O(r2n)(其中r为矩阵的秩).当r<<n时,该算法的复杂度比经典的SVD算法复杂度O(n3)有明显改进,数值实验结果表明这种算法具有速度快,精确度高,且实现简单等特点.其次,本文依据SPCA优化模型的结构特性,设计了一种求解SPCA优化问题的交替投影算法.该算法将原问题分裂成两个子问题,并采用交替投影算法对两个子问题进行非精确求解.通过适当选择参数,数值实验结果充分说明了算法的有效性.本文针对SPCA优化模型的两个主要问题:正交约束与稀疏性,提出一种可能的解决途径.从数值性能方面展示了所设计快速算法的有效性.算法的理论收敛研究具有较大的挑战性,将作为后续研究的主要目标.