论文部分内容阅读
随着电子设备和计算机技术的发展与普及,产生了海量的电子数据,这些数据通常具有高维、结构复杂、冗余等特点,造成了“维数灾难”问题。因此,面对海量复杂的数据,如何高效地发掘原始高维数据中的有用信息变得十分重要。在对这类复杂数据进行分析处理时,为了凸现分析结果的可解释性,通常需要满足“非负性”的约束。非负矩阵分解是一种具有解释性的低秩学习算法,由于在分解过程中存在“非负性”的约束,该方法只允许纯加性的线性组合,使得分解结果是基于部分的表示,这种表达方法符合人类大脑中“由局部构成整体”的认知方式,具有可解释性的特点。本文从图正则化的角度出发,针对目前图正则化非负矩阵分解(Graph Regularized Non-negative Matrix Factorization,GNMF)算法中存在的问题,通过引入多种不同类型的约束条件,进行了如下研究:(1)针对GNMF中存在的样本点空间关联描述不准确的问题,基于对偶图结构,提出了两种半监督对偶图多约束的非负矩阵分解算法,分别是半监督对偶图正则化双正交非负矩阵分解(SDGNMF-BO)算法和Sinkhorn距离特征缩放多约束非负矩阵分解(S3GNMF)算法。SDGNMF-BO算法基于局部线性嵌入构造了两个相似度矩阵,用来发掘原始数据的样本关联性与特征关联性,并将其合并为一个正则化项,以充分地描述原始数据的流形结构信息;然后,基于部分标签信息构造了全局约束矩阵,以提高算法判别力;最后,对分解因子施加额外的正交约束,以提高低维特征的排它性。S3GNMF算法考虑了原始数据在流形空间的分布特性,提出了基于Sinkhorn距离特征缩放的预处理方法,将原始数据的卷曲流形进行平滑化处理,以弱化离群样本点对图正则化项的干扰,提高S3GNMF算法的鲁棒性与图正则化项的有效性;然后,通过融合半监督学习、对偶图正则化与稀疏约束,提高了S3GNMF的子空间学习能力。在标准图像数据集和噪声图像数据集上的聚类对比实验,分别验证了两种算法在应对标准数据特征提取和噪声数据特征提取时的有效性。(2)针对GNMF算法中的异类样本间距离过近的问题,基于敌对图结构,提出了一种敌对图正则化的深度非负矩阵分解(AGDNMF)算法。该算法首先通过构造双向深度分解结构,以发掘原始数据中潜在的深层次结构信息;其次,该算法考虑了样本类内与类外的局部相似性关系并构造了一对敌对图正则化项,用以拉进类内样本,推远类间样本,以强化低维表示矩阵的判别力。通过在多个图像数据集与文本数据集上的聚类对比实验,证明了AGDNMF算法的有效性,能有效地发掘原始数据的层次结构和提取到高维数据显著的低维特征。(3)针对半监督图正则化项中标签信息与图结构不一致的问题,基于自适应邻域图结构,提出了半监督自适应邻域图更新的三因子非负矩阵分解(ABNMTF)算法。通过提出自适应邻域图正则化块对角的更新方法,在提高图正则化项内部关联结构准确度的同时仅增加了一个可调节参数;基于半监督信息的硬约束与灵活的三因子分解结构,显著增强算法的子空间学习能力和算法分解的灵活性;最后,通过半监督信息更新自适应邻域图结构,解决了标签信息与图结构不一致的问题,有效的改善本算法中图正则化的性能。该算法在多个图像数据集上的聚类对比实验中均取得了较好的聚类性能,具有耗时较少且参数敏感性弱的优点。上述工作主要围绕数据的非负特征提取与聚类应用,本文还针对高光谱解混应用中的解混性能弱问题进行了研究,提出了一种基于自适应邻域对偶图多正则化的非负矩阵分解(SMRNMF)算法,用于高光谱解混。该算法充分考虑了高光谱数据中混合端元分布不均匀性,丰度信息的稀疏性和纯端元的光谱平滑性。具体地,为了充分发掘高光谱数据中的相关性信息,提出了基于局部关联的自适应邻域对偶图正则化项,基于全局关联的子空间结构正则化项,满足丰度稀疏性的丰度矩阵稀疏约束项和灵活的平滑性调节矩阵。通过在多个真实高光谱数据集与合成数据集上的解混对比实验,验证了算法在高光谱数据解混上的有效性。