数据分布保持的嵌入及其在特征选择中的应用

来源 :重庆大学 | 被引量 : 0次 | 上传用户：user180

【摘要】

：

机器学习、信号、图像处理、计算视觉中会出现高维数据,高维数据不仅增加算法的计算时间和内存需求,同时也因“维数灾难”降低算法的有效性,高维数据中常会潜藏着一个低维结

【作者】

：

任鹏飞

【机构】

：

重庆大学

【出处】

：

重庆大学

【发表日期】

：

2016年期

【关键词】

：

数据分布维数约简特征选择

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

机器学习、信号、图像处理、计算视觉中会出现高维数据,高维数据不仅增加算法的计算时间和内存需求,同时也因“维数灾难”降低算法的有效性,高维数据中常会潜藏着一个低维结构。维数约简方法通过找到原始高维数据的低维表示来降低数据的维数,以此来降低计算时间消耗和增加算法的有效性。维数约简的方式有两种,一是特征变换,即将高维特征变换到新的特征空间,并试图保持数据的某种特性,如数据间的欧氏距离,而这种方式会改变原始数据特征的物理含义。另外一种是特征选择,其选出最能描述数据的一个子集,因此不会改变原始数据特征的物理含义,因此在某些应用中,为了保持原始特征的含义,必须使用特征选择的维数约简的方法,如基因选择。当类标签是可利用的时候,类标签可以用来指导我们设计不同的标准用于评估特征的重要性。然而当类标签不可利用时,非监督特征选择就变成非常困难。为了解决这些挑战,大多数的无监督维数约简算法试图保持数据的某些特性保持不变。本文针对高维数据维数约简不同应用,提出了如下两种维数约简方法:首先,我们提出一种保持输入数据分布的数据嵌入方法,叫做Distribution Preserving Embedding(DPE)。该方法试图去保持原始输入数据的分布信息,即最小化原始数据和低维数据的密度间的差异。我们给出理论证明,该算法的逼近误差为((1)4?(+4)),这里代表样本数目,(>0)是低维空间的维数,可以得出越小,则逼近误差则越小。因此DPE比较适用于数据可视化。此外,DPE很自然适合增量学习,因此可以很容易适用于新样本的嵌入。数据的分布能很好地刻画数据的内在模式,我们提出的DPE能有效的保留数据的原始分布特性,因此,其能够有效地发现数据的内在模式(结构),而传统的方法没有明确考虑数据本身的分布。最后,我们在不同的数据集上进行大量实验,结果显示了DPE的有效性和优越性。然后,我们提出了一种保持数据分布特性的无监督特征选择方法Distribution Preserving Feature Selection(DPFS)。该方法试图找到能保持数据分布的最显著的特征,通过给每个特征一个权重,然后最小化原始数据特征和加权特征间的密度估计值的差异。我们给出理论分析显示DPFS可以看成是一种核方法,因此其拥有核函数方法的优点,此外,传统的特征选择方法往往涉及一个详尽的组合优化,我们所提出的方法将特征选择问题作为一个数值优化问题,与组合优化相比,数值优化是更易于处理的。在多种现实生活中的数据集上的广泛的实验结果显示了该算法的有效性。

其他文献

一种用于WSN数据安全的加密算法研究

随着微电子、通信技术和计算机网络技术的发展,无线传感器网络已广泛应用于军事探测、环境检测以及其他商业环境中。在一些特殊的应用场合中,需要保证传感节点之间的数据传输

学位

无线传感器网络数据安全加密算法

遗传算法在交互概览图测试路径生成中的应用研究

随着科学技术的快速发展,各种软件产品出现在人们的生活当中,因此人们对于软件质量的要求也逐渐提升。软件测试是比较复杂耗时的,然而良好的软件测试方案,测试方法对于减少软

学位

UML模型交互概览图遗传算法测试路径

基于时间空间混合结构光编码的可移动式三维扫描技术研究

三维扫描技术由于在生产生活中有着广泛的应用而受到了很大的关注。可移动式三维扫描技术受外界约束少,能较快完成扫描任务,是三维扫描技术研究中的热点之一。常见的可移动式

学位

结构光三维扫描可移动混合编码三角测距ICP配准算法

IPv4至IPv6过渡技术及安全性的研究

随着Internet的迅速发展，现有的IPv4协议在应用中出现了很多不足，如地址资源即将耗尽以及对安全性无法保证等。IPv6的出现为互联网的发展带来了新的希望，它取代IPv4成为了发展的

学位

IPv4协议IPv6协议过渡技术安全性

基于多光谱成像的光谱反射率重建及应用

随着彩色图像在现实生活中的各个领域得到广泛应用,颜色也成为衡量图像质量的主要标准,因此,获取和显示精确的颜色变得越发重要。传统方法中颜色的信息都是与设备相关的,存在

学位

多光谱重建训练样本HDR图像合成

基于语义的垃圾邮件过滤技术的研究

电子邮件的兴起伴随着垃圾邮件的产生,随着互联网的普及和发展,电子邮件成为人们日常工作和生活中必不可少的交流方式,甚至已经成为文件和文档进行快速传输的主流载体。而垃

学位

垃圾邮件过滤文本分类语义

无线传感器网络的网络管理协议及关键技术研究

无线传感器网络(Wireless Sensor Network,WSN)是由具有传感功能和无线通信功能的设备自组成形成的无线网络系统,其用途就是通过广泛分布的传感器节点将采集到的数据发送给观

学位

无线传感器网络网络管理拓扑管理代码分发ZigBee

视频序列中运动人体检测与跟踪的研究与应用

进入21世纪以后,计算机几乎涉及了所有领域。目前,我们人类期望能够使用计算机及相关设备对人的视觉进行一种模拟。同时由于近些年多媒体技术飞速发展,导致视频采集十分便利,

学位

Kalman滤波算法人体检测人体跟踪背景建模

地形可视化中的LOD技术研究

随着计算机图形学的发展,以实时图形渲染为基础的虚拟现实技术已经应用在越来越多的领域。在虚拟的场景中加入真实感的地形可以极大的提高系统的沉浸感,LOD是大规模地形渲染

学位

LOD地形可视化四叉树GPUGeometry Clipmap

点云和网格模型的建立及形状分布检索算法研究

随着三维激光扫描仪等三维数据获取技术的发展,三维模型建模技术己成为研究热点。基于点云和网格表示的三维模型广泛地应用于计算机辅助设计,虚拟现实,可视化等领域。三维模

学位

点云模型网格模犁特征提取点云简化形状分布算法

数据分布保持的嵌入及其在特征选择中的应用

与本文相关的学术论文