论文部分内容阅读
随着计算机科学技术的迅速发展,非结构化的高维数据大量涌现。高维数据不仅难以被人们直观理解,而且难以被现有的机器学习和数据挖掘算法有效地处理。如何有效地利用这些海量高维数据已经成为未来企业竞争的砝码。数据降维算法是有效处理这些高维数据的一个重要手段,同时也是特征提取的重要工具,数据降维算法在模式识别中扮演着越来越重要的角色。流形学习(Manifold Learning)算法是近年来发展起来的一种非线性降维算法,2000年,J. B. Tenenbaum、Sam、Roweis等人在《科学》杂志的同一期上发表了关于流形学习方面最有影响的两篇文章。他们提出了各自的流形学习算法:等距特征映射(Iisometric Feature Mapping,简称为ISOMAP)和局部线性嵌入(Locally Linear Embedding,简称为LLE),并首次使用了manifold learning术语,标志着以非线性为主要特征的流形学习方法的诞生。经过近12年时间的进一步发展,出现了很多流形学习算法,如LSTA、LE、Hessian LLE等。核方法在流形学习算法如局部线性嵌入,ISOMAP算法,拉普拉斯特征映射也取得了很大效果。推动流形学习成为机器学习领域中的热点问题。本文围绕流形学习算法展开,从线性降维算法、非线性降维算法(流形学习算法)等方面对数据降维算法进行了一些研究。随着数据降维在许多领域的重要应用,以及其数学基础——微分几何的逐步完善,流形学习将在许多领域发挥重要作用。本论文在第一章主要介绍了数据降维的目的以及非线性数据降维方法流形学习的研究背景、以及进展,还介绍了流形学习方法的一些基本的概念。论文在第二章介绍了两种经典的线性降维算法,它们分别是主成分分析(Principal Component Analysis PCA)和线性鉴别分析(Linear Discriminant AnalysisLDA)。论文在第三章主要介绍6种经典的流形学习方法,包括多维尺度变换(Multidimensional Scaling, MDS)、等距特征映射(Isometric Feature Mapping ISOMAP)、局部线性嵌入(Locally Linear Embedding LLE)、拉普拉斯特征映射(laplacian eignmapLE)、黑赛局部线性嵌入算法(Hessian LLE)、局部切空间排列(Local Tangent Space Alignment LTSA)等。论文还分析了这些流形学习方法各自的优缺点以及它们的异同点。并使用matlab软件对这6种经典流形学习算法进行了模拟实现,论文中给出了实验结果以及一些分析。在论文的第四章基于密度聚类的Nystrom算法思想,提出了一种改进流形学习准确性的方法。Nystrom算法是一种经典的近似处理积分方程的算法,它还可以用在数据降维中对核矩阵的近似处理中,从而减少数据降维算法中的大型样本的复杂的矩阵运算。它已成功地应用到一些流形学习算法,如MDS。由于Nystrom方法是进行矩阵抽样时是随机抽样来代替原始样本的数据,所以虽然减少了计算量,但带来的问题是准确性受到影响。本论文在中提出了一种改进算法,将这个算法应用在流形学习降维算法里,用来提高流形学习算法的效率,并在大规模数据集上进行了实验,取得了一些探索性结果。