基于流形学习的降维算法

来源 :浙江大学 | 被引量 : 0次 | 上传用户:zzzaaaqqq1314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在面对高维度数据的实际问题中,为了解决”维度诅咒”问题,提高数据分析精度,我们需要找到数据有效的低维表达。通过对数据几何分布的分析,基于流行学习的降维在实际应用中取得了成功,有效的避免了高维数据所带来的问题,并使得流形学习在机器学习和相关领域迅速发展。然而,流形算法领域仍然存在不少问题等待解决。例如,大多数流形学习算法的映射和后续的学习模型没有直接联系,在降维中,并不知道映射会如何影响后续模型的学习效果。其次,许多线性流形降维算法在处理非线性的数据时会失去效果。除了以上提到的两点,在利用流形学习进行降维的过程中,计算复杂度往往成为实际应用的瓶颈。  论文围绕基于流形学习的降维展开,并尝试解决以上提出的流形算法中存在的问题。主要工作包括以下几个方面:  1.提出直接提高模型学习效果的基于流形的特征选择算法。通过结合流形学习以及最优实验设计理论,我们提出的特征选择方法能选择出有利于提高模型学习效果的特征点。该算法假设数据点分布在潜在流形之上,考虑原始数据包含的几何分布和区分性信息,通过求解使模型预测值最大方差最小化的优化问题,选择数据点。由于该问题最后的求解属于NP问题,我们还介绍了有效的贪婪算法求解该优化问题。在此之前也有其他基于最优实验设计和半正则化流形算法的特征选择算法,一般是通过最小化预测模型中参数的协方差来选取特征的。和他们相比,我们的算法直接对目标函数的预测值最大方差的上界进行最小化,对学习效果的影响更为直接。在数据集上用该算法选择特征之后的聚类实验证明了算法的有效性。  2.为了解决基于流形的非负矩阵分解计算复杂度过高的问题,本文提出了新的加速算法。和原始的非负矩阵分解算法相比,保局非负矩阵分解算法(LocalityPreservingNon-negativeMatrixFactorization,LPNMF)由于利用了数据的流形几何信息能够更好的揭示数据主题,具有更强的数据表达能力。然而,LPNMF的计算复杂度为O(n3),n为数据点个数,当数据规模增加,计算时间将成倍增加。受半监督式学习规模化以及大规模谱聚的启发,我们提出了LPNMF的加速算法。给定大小为n的数据点,我们选择p(p<<n)个锚点数据,并用选择的锚点数据的稀疏表达来表示原始大数据。同时,通过新的表达,在计算迭代过程中,使用Woodbury转化公式减少矩阵计算的时间。从而有效的减少了LPNMF的整体计算时间。实验证明,在大型的文本数据上新的加速算法降维后和原来的聚类效果一样,所用计算时间比原算法快2-3倍。  3.对原有的线性流形映射算法进行核方法化。我们将原有的线性映射方法扩展到再生希尔伯特的核空间上,即将数据点映射到另一个数据空间,使他们在新数据空间的分布变得易于区分,再进行普通的学习训练。同时,各种不同的核函数可以将原线性算法构造成不同的非线性算法,拓展了原始算法的应用范围。实验证明,在人脸以及数字识别图像上,新的基于核方法的映射比原来的线性映射方法表现更好。
其他文献
为了解决传统搜索引擎系统面临的众多问题,计算机科研人员和学者提出在P2P网络系统之上构建搜索引擎,通过P2P对等网络把分散在各地的计算机用户联系起来,整合各地计算机的运算能
随着三维激光扫描技术的迅速发展,三维点云数据在自主导航、逆向工程、工业检测等领域的应用越来越广泛。三维点云数据的分割和分类是三维点云数据处理中两个非常关键的技术。
半定规划是线性规划的一种推广,是在满足约束“对称矩阵的仿射组合半正定”的条件下使线性函数极大(极小化)的问题,这个约束是非线性的,非光滑的,凸的[1][2][3][4]。半定规划
随着网络基础设施的普及,各种上网终端的流行以及Web2.0技术和社交网络的兴起,位于任何地方的用户都能很容易的获取和创造内容,因此一个应用程序的数据以及对这些数据的访问和更
Web服务为企业和多个组织的应用程序构建提供了一个通用机制。随着面向服务的计算(SOC)和面向服务架构(SOA)的发展,越来越多的企业开始利用Web服务来快速、低价、高效地构建应
迁移工作流(Migrating Workflow)是将移动agent计算模式应用于工作流管理的一门新技术。迁移工作流是一个或多个迁移实例(Migrating Instance)在不同工作位置(Work Place)之
学位
目前对苹果的检测方法主要分两类:一类是感官分析,即通过专业人员根据掌握的知识、经验对苹果的品质好坏进行评价,该方法主观性强且耗时;另一类是使用大型色谱仪器分析,如气相色谱
云计算已经成为信息技术研究和应用的主流方向之一。云计算平台按需使用、高可扩展和低维护成本的特性吸引了越来越多的企业将应用服务部署到云平台中。然而,由于云计算平台规
学位