论文部分内容阅读
随着信息技术的快速发展,真实世界中数据的规模也在以几何级的速度增长,出现了大量的高维数据,这些数据具有高维稀疏性。数据的这种高维稀疏性给现代数据分析与处理带来巨大挑战。数据降维是许多高维数据分析任务的预处理阶段之一,然而随着维数的不断膨胀,传统的线性数据降维方法已不能满足需求,需要找到新的降低数据维数的方法。流形学习就是一种新的非线性降维技术,即通过分析高维观测空间中样本集的外在特性来发掘隐藏在其中的本质结构,从而得到有用的信息,它已经成为大规模海量高维数据预处理的关键技术。近年来,基于不同理论和方法的流形学习算法已经取得了较好的研究成果,能更好地挖掘隐藏在高维数据中的低维流形结构。然而,流形学习的这些算法仍然存在一些问题,如根据流形结构自适应地构建邻域关系图直接关系到流形低维本征结构的有效重构;基于矩阵谱分解的方法不能得到数据集从原采样空间到本征结构空间对应的显式映射函数,对不断增加的新采样点得到其低维嵌入值是困难的。这些流形学习领域中的重要问题,理论上和应用上都值得关注。本文就这两个问题展开了研究,具体贡献如下:(1)针对传统邻域选择方法不能根据流形样本密度和弯曲度合理选择邻域的缺点,提出了一种有序自适应的邻域选择算法。该算法从流形上曲率最小的点开始,以宽度优先的次序不断地处理每个点。根据流形结构的局部线性特性,利用已有的邻域信息增量地对搜索到的数据点选择合适的邻域。实验结果表明:该方法应用于Isomap后,对不同结构的数据集嵌入结果更加准确。(2)基于人的认知,提出了一种保持局部邻域关系的增量Hessian LLE(LIHLLE)算法,该方法通过保证流形新增样本点在原空间和嵌入空间局部邻域的线性关系不变,用其已有邻域点的低维坐标线性表示新增样本点,得到新增点的低维嵌入,实现了增量学习。在Swiss roll with hole和frey_rawface数据集上的实验表明本文提出的方法简便、有效可行。(3)基于Isomap算法全局保距的思想,提出了局部保距的增量Isomap算法(LI-Isomap),该算法通过保证新增点在各个邻域方向的径向距离不变,最小化新增点与邻域点间夹角在原空间和嵌入空间的差来实现增量学习,给出了目标函数,通过解最优化问题得到新增点的低维嵌入,在Swiss roll和frey_rawface数据集上的实验表明该方法合理高效。总之,本研究通过对不同流形结构的探讨,提出了一种普适性较强的自适应邻域选择算法,为大多数流形学习算法提供参考和技术支持;对已有的一些流形学习算法进行扩展,提出了对应的增量流形学习算法,增强了流形学习算法的学习能力,使其适用范围更广