论文部分内容阅读
非负矩阵分解算法是一种有效的特征提取及数据低维表示方法,其分解过程和分解结果具有可解释性,利用乘性迭代规则能够快速求解。因此,在特征提取、分类及聚类任务中有广泛的应用。与PCA、LDA等算法提取的全局特征相比,NMF算法提取数据的局部特征,可以解释为原始数据是所有局部特征的纯加性组合,这种分解特性更符合人类视觉的认知方式。随着对NMF算法研究的不断深入,专家学者通过对特定场景中的潜在数据结构进行分析,从而将NMF算法合理应用到不同场景中。NMF算法有三个重要的改进方向:一是在目标函数中加入额外的约束项或惩罚项,如稀疏性约束、正交性约束、图正则化约束等,以提高在分类及聚类任务中的性能;二是对分解形式进行重写,如将单层的矩阵分解扩展成多层的矩阵分解,以得到数据中更加丰富的层级结构特征;三是与其他算法相结合,将非负性约束作为提升算法性能的有效方式。本文针对非负矩阵分解算法在特征提取及数据低维表示进行研究,提出了两种有效的NMF算法,使其在图像分类及聚类任务上的性能有所提升。本文的主要工作如下:(一)提出了图正则化稀疏判别非负矩阵分解算法。引入了标签信息,将无监督的NMF算法扩展为有监督的NMF算法,以提高算法的判别性能;结合了图正则化约束和最大间距准则来提取更加局部化的特征;并结合稀疏性约束,进行有效的特征选择。不同的约束项发挥了不同的作用,约束项之间是可以相互补充的,适当的结合不同的约束项,能够在特定问题中得到更好的效果。(二)提出了基于自步学习方法的图约束非平滑非负矩阵分解算法。用L2,1范数表示的目标函数代替以欧式距离表示的目标函数,提高对噪声数据的鲁棒性;引入平滑因子矩阵,以提高分解后两个子矩阵的稀疏程度;将自步学习作为一种特殊的dropout方式,减少基特征之间的相互影响,得到更加稳定的分解结果。本文给出了算法的基本模型及优化求解方法,并在ORL、AR、COIL20等数据集及添加噪声的数据集上进行图像分类及聚类实验。实验表明,本文所提出的两种改进的NMF算法在图像特征提取及数据低维表示中是有效的。