论文部分内容阅读
本文介绍了基于流形的机器学习算法--流形学习。其中包括等距映射、局部线性嵌入映射、拉普拉斯特征映射和扩散映射,展现了这些经典算法的思想、推导过程以及实验效果,并在此基础上推出了维数约简算法的一个整体框架一图投影,在图投影框架中重新审视了各个算法的相似性定义,以及在信息挖掘和行为感知领域的应用。实际上,许多维数约简应用的例子都是处理一些具有部分标记样本的数据集。所以,在本文中我们将着重考虑基于标记信息的流形学习算法。我们推出了两种解决此类问题的算法来进行维数约简和数据表示,一种算法是基于拉普拉斯特征映射的,一种是基于扩散映射的。这两种算法都能够做到既保持流形的局部几何结构,又能保持整体统计标记信息。这两种算法与以往经典算法不同之处就是利用标记信息改造了基本几何信息构造的相似性矩阵。算法分别在手写数字,人脸图像和天气等数据库中得到了很好的应用。半监督的拉普拉斯特征映射是改造了经典的拉普拉斯特征映射框架而得到的,该算法使得目标函数考虑了标记信息。首先,通过局部邻域关系构建一个加权图,然后通过样本的标记信息改造这个局部结构关系使得样本之间的关系依赖于标记信息,最后通过解决广义特征分解问题得到样本在低维空间的表示。实验证明该算法通过考虑标记信息,使得性能得到了很大的提升。半监督扩算映射是一种基于传统的扩散映射的算法。该算法的相似性矩阵是通过样本标记的后验概率改造得到的,样本的标记后验概率是通过有限步EM迭代算法得到。值得一提的是,半监督扩散映射能够将不同标记的样本投影到不同的子空间中去,这样使得后续的分类和识别任务变得异常简单。并且该算法具有稳定性和抗噪音干扰性,因为样本之间的关系是逐步通过局部到整体扩散得到的。将半监督扩散映射算法应用到手写数字和耶鲁大学的人脸数据库,结果表明该算法对于分类问题具有非常好的效果。