最小二乘和低秩矩阵分解的数据降维

来源 :上海交通大学 | 被引量 : 0次 | 上传用户：bobshen88888

【摘要】

：

在机器学习与数据挖掘等实际应用问题中，如人脸识别、图像分类等领域，往往要处理大量的高维数据。数据的高维特性不仅增加了学习算法的计算开销，而且也掩盖了数据的内在真实结构

【作者】

：

舒欣

【机构】

：

上海交通大学

【出处】

：

上海交通大学

【发表日期】

：

2013年期

【关键词】

：

机器学习数据降维最小二乘低秩矩阵分解流形优化

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在机器学习与数据挖掘等实际应用问题中，如人脸识别、图像分类等领域，往往要处理大量的高维数据。数据的高维特性不仅增加了学习算法的计算开销，而且也掩盖了数据的内在真实结构，这使数据的分析和处理变得极为困难。降维是解决上述问题的有力工具，降维是将数据通过一个映射从高维空间变换到低维空间中，从而发现数据内在的几何结构并减少既定学习任务计算开销的方法。因此，数据降维是机器学习与数据挖掘领域的研究热点之一。　　本论文围绕数据降维方法开展研究，发展了一类基于最小二乘和低秩矩阵分解的降维方法，主要的贡献如下：　　1.在最小二乘的框架下提出了保结构的线性判别分析(LocLDA)用于数据降维。通过在最小二乘的线性判别分析(LDA)中引入图Lapalacian正则项，使LocLDA不仅具有鉴别能力，而且还能刻画数据的内在流形结构。进一步的分析表明LocLDA的解等价于一个小规模的对称正定线性方程组的解，该线性方程组可以通过预条件共轭梯度法快速求解。在UCI数据集和人脸库上的分类实验结果表明了LocLDA算法的有效性。　　2.传统降维方法都要求训练数据是干净的，实际应用中的数据总是存在缺失或者噪声等问题，传统的降维方法对数据噪声和缺失缺乏鲁棒性。本文在最小二乘的框架下提出了鲁棒的判别分析(RDA)。RDA利用低秩和稀疏理论恢复干净数据，用基于L1范数度量的损失函数学习降维投影矩阵。本文提出了基于近似梯度法的增广拉格朗日方法来求解RDA优化问题，并详细分析了数值算法的收敛性。在干净和污染数据集上的实验结果验证了RDA的优越性及鲁棒性。　　3.提出了最小二乘的多标记线性判别分析(LSMLDA)。传统最小二乘的线性判别分析仅仅适用于单标记数据，无法直接用于高维多标记数据的维数约简。多标记线性判别分析(MLDA)需要求解一个维数较高的矩阵特征值问题，计算开销非常大。本文建立了MLDA的特征值问题与最小二乘问题的等价关系，从而得到了最小二乘形式的MLDA(LSMLDA)。LSMLDA可以通过线性方程组的快速求解得到最优解。此外，本文通过对投影向量施加基于L2范数和L1范数的约束，用于控制LSMLDA模型的复杂度及提高模型的泛化能力。在三个标准的多标记数据集上的实验结果验证了LSMLDA及其推广的优越性。　　4.提出了局部敏感的低秩矩阵分解降维模型。在该模型中，通过引入正交约束使得到的投影矩阵是半正交的，这在一定程度上减小了数据的重构误差。为刻画数据空间的内在几何结构，本文通过投影矩阵和数据矩阵构造了自适应的局部算子，该局部算子可通过学习获得。提出了基于凯莱变换(Cayley transformation)的流形优化迭代交替交替求解优化变量，从而保证了投影矩阵的正交性，在公开数据集上的分类实验验证了所提模型具有更高的分类精度。

其他文献

遗传算法及模糊聚类在彩色地图识别中的应用

本文重点研究福建省公路局1：50万彩色公路地图的分割算法，实现地图的公路层、水系层、文字层和背景层的分层，准确提取公路形状，为后面制作数字地图提供精确、完整的数据源。

学位

遗传算法模糊聚类彩色地图分割局部最优地理信息系统

结构化对等计算及其上数据挖掘系统

对等计算(简称P2P)，自2000年中期以来迅速成为计算机研究界和工业界关注的热点。在对等计算系统(简称P2P系统)中，每个节点都拥有对等的功能与责任，即每个节点既可以充当服务器向

学位

对等计算数据挖掘频繁模式挖掘网络构架路由算法

N7公共信道信令统计在S1240世界版本中的实现

随着通信技术的不断发展，通信规范的日益完善，为了适合各个国家的不同要求，S1240程控交换机根据目前两个主流国际通信组织机构ITU-T和ANSI的标准研发了多个版本。版本数量的众多

学位

七号信令程控交换机S1240网络通信

面向网络的重叠社区发现方法研究

现实世界中存在着大量的复杂网络，例如朋友网络、社会网络、技术网络、生物学网络、网络中页面之间相互链接而形成的网络、论文合著网络、文献引用网络等等。许多研究表明，复杂

学位

重叠社区社区发现复杂网络模糊合作博弈隶属函数收益函数

时尚媒体数据的新型检索技术研究

社交媒体的日渐风靡和电子商务网站的繁荣发展催生了海量的时尚媒体数据，比如普通用户分享的街拍数据、时装品牌发布的时装秀数据、电商网站提供的产品数据等。时尚媒体数据是

学位

图像检索跨媒体数据深度学习语义识别

云数据中心的能耗和性能管理研究

近年来，作为一种最有前途的资源共享方式，云计算引起了学术界和工业界极大的关注。云计算的出现对信息工业产生了巨大的影响。在过去的几年里，许多大公司，包括Amazon，Google，Micros

学位

云数据中心服务器整合蚁群优化电压频率调节能耗管理服务品质协议

移动组播技术研究与分析

目前在无线网络环境中,移动IP 是众多支持主机移动的方法中较受到研究者青睐的,然而在移动IP 中依然存在一些问题需要去解决,其中一个问题就是三角路由问题,解决三角路由问题

学位

移动IP路由优化中间移动代理MMA延迟时间移动IP组播

云环境下匿名的加密数据关键字查询技术研究

云存储作为云计算的重要组成部分,为用户提供在线存储服务。虽然云存储提高IT(Information Technology)效率、节省成本并能为绿色计算等带来机遇,但同时也面临着一些安全问题

学位

云计算匿名加密数据查询Bloom过滤器内积相似性

移动机器人自主导航仿真系统的研究与设计

随着计算机科学技术以及多媒体应用技术的飞速发展,虚拟现实技术和仿真技术越来越受到人们的广泛关注。它们广泛应用于工业、国防、教育、医疗以及娱乐等方面。本文旨在应用

学位

Direct3D虚拟现实碰撞检测HLSL着色器

公文流转过程中的诚信与安全保障

公文流转系统是电子政务建设中的核心和基础系统,它的开发与应用已经成为各级政府机关政务信息化的主要内容。由于政务办公的特殊性,公文流转过程中的诚信与安全问题一直受到

学位

电子政务公文流转PKI/CA角色网络

最小二乘和低秩矩阵分解的数据降维

与本文相关的学术论文