论文部分内容阅读
在模式识别应用中,如人脸识别、手写体识别、图像聚类,数据的维数一般比较高。高维数据中含有大量的冗余信息以及干扰信息,寻找其向低维空间的特征变换矩阵即特征提取,成为模式识别研究中的一个重要的研究领域。随着数据采集技术的发展,形成了大量的不同特性的数据。如何从多种特性的数据中提取出有用的信息即特征融合吸引了众多研究者的目光。在众多特征提取与融合算法中,子空间法是其中最重要的一类方法,因此本文将着重对基于子空间的特征提取和特征融合算法进行研究。本文以含有单一特征的特征提取以及多特征的特征融合任务为研究对象,提出了四种特征提取与融合算法从高维数据中提取特征用于分类/聚类任务。论文的主要工作可归纳如下:(1)提出了半监督线性鉴别分析算法。众所周知,线性鉴别分析算法在训练阶段需要训练样本的标签信息。而在实际应用中含有大量的无标记样本,由于不能利用这些无标签的训练样本进行训练,因此提取的特征无法获得存在于无标记样本中的鉴别信息。针对以上问题,提出了半监督线性鉴别分析算法。该算法将计算数据的映射向量与计算数据的标签信息融合到一个目标函数中,同时最小化计算的标签与真实标签的差值。为了进一步提高计算的标签矩阵的准确性,在该算法中引入了标签矩阵元素的非负限制和标签矩阵列向量之间相互正交的限制。为了优化目标函数,提出了一种迭代优化的方式计算映射矩阵和标签指示矩阵。(2)提出了典型主夹角相关分析算法。由于传统的典型相关分析算法在利用两个视角的数据进行特征融合时需要使用这两个视角的数据一一匹配信息,然而应用中可能存在大量没有匹配信息的数据,因此在此种情况下典型相关分析算法不能够充分的利用数据进行特征融合。此外典型相关分析算法没有考虑两个视角数据的非线性结构,使用典型相关分析算法进行特征提取时可能破坏数据的非线性结构。为了克服典型相关分析算法这两个缺点,本文提出了典型主夹角相关分析。为了使典型主夹角相关分析能够使用没有匹配信息的数据,本算法利用两个视角的数据张成的空间的相关性来度量它们的相关性。为了使该算法所抽取的特征保持数据的非线性结构,在算法中引入流形正则来限制映射之后数据的分布。最后,通过最大化两个视角之间的相关性,同时保持两个视角的数据的非线性结构来计算映射矩阵。(3)提出了基于谱聚类的无监督鉴别典型相关分析算法。典型相关分析算法仅仅考虑了匹配数据之间的相关性,没有考虑两个视角之间同类样本数据之间的相关性,同时没有考虑同一视角的同一类别的数据之间的相关性。因此,典型相关分析算法不能很好的利用多特征的数据进行特征融合。为了克服这一缺点,本文提出一种基于谱聚类的无监督鉴别典型相关分析算法。为了能够使用数据的类别信息,该算法在迭代过程中利用谱聚类方法计算样本的类别信息,进而使基于谱聚类的无监督鉴别典型相关分析算法能够很好地利用数据的标签信息。在基于谱聚类的无监督鉴别典型相关分析算法中,考虑了三种不同的同类数据的相关性。考虑到三种相关性的权重可能不同,在算法中引入了对这三种相关性进行权衡的方法。针对该算法不能使用多特征进行聚类的问题,将该算法扩展到多特征的情况,并提出了基于谱聚类的多特征无监督鉴别典型相关分析算法。(4)提出了基于L1范数的典型相关分析算法。众所周知,最优化典型相关分析的目标函数可以等价于最小化匹配样本之间的L2范数距离。因此,从本质上来讲典型相关分析算法是基于最小化两个视角的匹配的数据对之间的L2范数距离的算法。然而,L2范数可能会造成给予距离较大的数据对较大的权重,而距离较小的数据对较小的权重。在相关分析算法中距离较小的匹配数据对应该具有更大的权重,因此这一问题可能会降低典型相关分析算法的最终的性能。同时在噪声存在的情况下,L2范数也可能会放大噪声,这一问题会进一步降低典型相关分析算法的性能。为了解决这一问题,提出一种特征融合方法—基于L1范数的典型相关分析算法。针对不同的问题,并提出了三种该算法的扩展算法。