论文部分内容阅读
随着信息技术的迅猛发展,信息数据的规模和维度呈现指数的增长,数据降维对充分利用挖掘这些数据中的有用信息是非常重要的。流形学习在数据降维中起着重要的作用。但是,在很多现实应用中,需要发现多个输入数据的潜在特征,这些输入数据分布在不同的非线性流形上。传统流形学习算法无法处理这类问题。作为流形学习算法的一个新的研究方向,流形对齐算法为流形学习算法从单一流形学习向多流形的学习提供了一个很好的平台。流形对齐算法不仅能将不同的高维数据降维到一个共同的低维空间中,而且能够保持对应信息在嵌入空间中的位置尽可能接近。但是,流形对齐中也存在一些不可避免的问题。首先,在对齐算法中,对应点信息对对齐结果有着重要的影响,准确而充足的对应信息能够大大提高对齐的准确率。但是现实中,对应点信息的获取是非常困难的,因为不同流形中的样本点由不同的特征表示,其特征的表示方法和表示维度都不相同,很难将它们直接比较。尽管目前出现了一些可以自适应的寻找对应点信息的对齐算法,但是这些方法计算复杂度非常高,只能用于一些特定的情况或数据集中。其次,在数据分类问题中,往往并没有给出不同数据集之间的对应点信息,而是只给出部分样本的标签。在此情况下,如何基于样本标签而不是对应点信息设计流形对齐算法,是本文要解决的另一个问题。因此,本文主要围绕基于少量对应信息的流形对齐问题和利用标签信息的对齐问题两个方面展开。具体来讲,本文的主要工作有:1、基于少量对应点,设计了新的半监督流形对齐算法。流形对齐的关键步骤在于挖掘不同数据集样本点之间的关联性。假设给定少量的对应点,本文利用样本点到对应点的测地距离刻画每个样本点的流形结构。通过比较不同数据集样本点的流形结构,可以挖掘了这些样本点之间的关联性。此外,我们从理论上验证了对于采样自不同d维流形的样本数据集,只需要给定d+1个满足给定条件的对应点,本文提出的算法就能准确挖掘不同数据集样本间的关联性。最后,通过数值实验验证了在只给出少量对应点信息的情况下,本文提出算法同其它半监督流形对齐算法的优势。2、基于分类的流形对齐算法的研究。本文基于两种假设条件给出了流形对齐算法在不同情况下对分类问题的处理。对于对应点信息和标签信息都给出的情况,我们对构造出的拉普拉斯图矩阵进行重新排列,利用半监督算法模型对未知标签的样本点分类。但是在很多情况下,并没有给出对应点信息而只是给出部分样本点的标签信息。在此情况下,本文设计了一种新的两步流形对齐算法。首先,我们通过流形学习方法将每个数据集各自投影到一个低维空间。其次,利用每个数据集中训练点的标签信息,设计了一种新的优化模型,学习出数据集之间的平移和转换关系,从而将不同数据集投影到一个共同的低维空间。最后,通过数值实验验证了本文提出的算法在数据分类中的有效性。