稀疏无监督线性降维方法研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:lingwei99
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着存储技术的发展,可获得的数据集在样本个数及样本特征维度方面都有很大的提高。因此,我们需要降维(Dimensionality Reduction,DR)技术来帮助探索和分析如此庞大的数据集。一般来讲,DR技术的目标是将高维数据表示在低维空间中,旨在:从知识发现的角度出发,识别出一个有利于预测输出的特征子集;通过减少特征的数量降低学习算法的时间和空间复杂度;消除噪音或不相关特征对预测准确度的影响等。现有的DR技术大致可分为无监督的特征转换技术和有监督的特征选择策略。   主元分析(Principal Component Analysis,PCA)和主坐标分析(PrincipalCoordinate Analysis,PCO)是两种经典的无监督降维方法。它们通过线性转换技术将高维数据转换到低维空间并且在降维的同时保留数据的最大方差。但是,由于降维后的每个主元(Principal Component,PC)是所有特征变量的线性组合,且线性转换矩阵中的元素非零,故很难理解推导出的主元。为了解决在降维过程中不易理解的问题,一些学者引入稀疏模型。现有的稀疏模型主要针对PCA,称为稀疏主元分析(Sparse PCA),其大致可分为两类:一类是基于回归框架,另一类是基于主元的最大方差特性。到目前为止,还没有关于PCO的稀疏模型。本文主要对现有的各种Sparse PCA模型进行研究,并做了如下几个方面的创新:   在对现有的两类Sparse PCA模型研究的基础上,由最佳得分(Optimal Scoring)框架推导出一种新的PCA的模型,并通过加入弹性网(Elastic Net)稀疏惩罚来获得Sparse PCA模型。实验结果表明,我们新提出的方法在应用于判别分析(Discriminative Analysis)的问题时,能获得更好的效果。   根据主元分析及主坐标分析之间的对偶性,我们将主坐标分析归到回归框架下,并同样加入elastic net稀疏惩罚来获得稀疏主坐标分析模型。实验表明,此模型能很好的捕获数据的潜在信息并且能获得较好的分类准确度。
其他文献
软件是充满错误的,而修复错误最重要的前提,就是如何快速地定位错误,这往往也是在软件开发周期里花费人力物力最多的一步。因而任何可以降低错误定位代价的技术都是非常有吸
在高校中,现代信息技术综合应用的重要领域之一就是基于WEB的教学管理系统,这种系统也是实现教育管理信息化的丰要方式。随着教育事业的改革不断深化,面对更多更快的要求,教
随着互联网产业的快速发展,主题模型作为近些年来在文本挖掘中出现的一种概率模型逐渐成为了国内外的研究热点,其应用几乎覆盖了文本挖掘和信息处理的所有领域。   短文本可
XML数据由于其开放性、通用性、半结构化等特性,已经成为互联网上数据表示和交换的标准。随着XML应用的不断扩展,大量数据源产生出千差万别的XML文档,它们所遵循的文档模式(DTD
随着计算机软件、硬件和通信等技术的不断发展,形成了一种新的“以人为中心”的计算模型——云计算。在云计算环境中,人们通过多种方式普适地获得云服务,这需要云中心提供相
近年来,随着计算机图形技术的高速发展和信息量的快速膨胀,人们对高分辨率、高亮度显示系统的需求越来越迫切。由于传统的显示设备不能满足分辨率需求,高性能显示设备又太昂
从图像数据中提取出的高维特征给构建高效的图像索引带来了很大的困难。通过语义哈希索引思想来构建图像索引是一种有效的解决方案。但是传统基于语义哈希索引思想的索引算法
随着互联网的飞速发展,互联网业务日趋多样化,传统的网络体系结构无法适应的互联网业务需求,改造升级网络体系架构刻不容缓。但是,由于互联网服务提供商间的利益竞争关系,互联网的
随着计算机技术的日益成熟,各种结构复杂、功能强大的计算机系统被广泛应用到航空航天、交通运输、医疗卫生和核电能源等安全关键领域。一旦这些系统失效,将造成人类生命财产的
随着信息技术的发展,当今社会的数据信息量呈指数增长,很多存储平台的量级都上升为PB级别。作为海量数据存储系统在用户层上普遍使用的管理平台一分布式文件系统已经日渐成熟