论文部分内容阅读
流形学习是机器学习与数据挖掘领域的一个重要研究方向。其研究目的在于揭示隐藏在高维数据集中的内在低维结构,从而能够重构并进行非线性维数约简或者实现数据的可视化。经典的流形学习算法总是假设高维数据批量存在于单一流形,但是现实生活中纷繁复杂的数据大多存在于多个不同流形上,而且往往不可能一次性获取,甚至这些流形之间可能还存在严重的交叉重叠。因此对多流形数据的识别分解与多流形的增量学习是流形学习研究中的一个重要的课题。本文针对等维独立多流形数据的增量问题与相交多流形数据的识别分解进行了研究,主要内容如下:(1)针对目前多流形分解算法普遍不具有增量能力这一现状,提出一种针对等维独立多流形的增量学习算法IMM-ISOMAP。首先通过动态邻域算法计算每个新增样本的邻域信息,然后结合原来已经得到的子流形信息通过扩展的方式将新样本依次划分到新的子流形中,在新子流形中仅修改受影响的关键路径,这种增量式的处理避免重新计算全部的邻域关系,同时对新得到的子流形中由于新增样本可能造成的“短路”或者冲突路径进行检测并处理,最后依据各子流形间的邻接关系拼接出整个样本集的最终低维嵌入,进而实现其数据集的可视化。通过在人工的增量数据与不断增量变化的实际数据上进行实验,结果都表明该算法可以有效分解多流形数据,而且算法的增量能力,将来能很好的应用于大规模数据。(2)针对目前尚没有一种能够很好处理相交多流形数据的算法,本文基于MPPCA模型提出一种面向高维相交多流形数据的分解算法D-MPPCA。首先利用动态邻域算法计算每个样本数据的切空间与近邻关系信息,然后利用MPPCA模型将相交多流形数据分成若干个“不相交块”,最后通过扩展这些“不相交块”而实现对相交多流形数据的识别与分解。结果表明,该算法在人工相交多流形数据和实际高维图像数据上均有很高的分解精度,相较于其他算法极大的提高了辨别能力。以上研究工作一方面在处理多流形数据时对现有流形学习算法作出了改进,不仅得到更准确的邻域图,而且通过引入增量学习,大大提高了算法的效率。另一方面使得算法能够很好的识别相交多流形数据,大大提高了算法分解多流形的精度。同时也为进一步的研究工作打下扎实的基础,相信此类算法的不断改进可以为数据降维与图像分类问题提供一种新的思路。