论文部分内容阅读
机器学习、信号、图像处理、计算视觉中会出现高维数据,高维数据不仅增加算法的计算时间和内存需求,同时也因“维数灾难”降低算法的有效性,高维数据中常会潜藏着一个低维结构。维数约简方法通过找到原始高维数据的低维表示来降低数据的维数,以此来降低计算时间消耗和增加算法的有效性。维数约简的方式有两种,一是特征变换,即将高维特征变换到新的特征空间,并试图保持数据的某种特性,如数据间的欧氏距离,而这种方式会改变原始数据特征的物理含义。另外一种是特征选择,其选出最能描述数据的一个子集,因此不会改变原始数据特征的物理含义,因此在某些应用中,为了保持原始特征的含义,必须使用特征选择的维数约简的方法,如基因选择。当类标签是可利用的时候,类标签可以用来指导我们设计不同的标准用于评估特征的重要性。然而当类标签不可利用时,非监督特征选择就变成非常困难。为了解决这些挑战,大多数的无监督维数约简算法试图保持数据的某些特性保持不变。本文针对高维数据维数约简不同应用,提出了如下两种维数约简方法:首先,我们提出一种保持输入数据分布的数据嵌入方法,叫做Distribution Preserving Embedding(DPE)。该方法试图去保持原始输入数据的分布信息,即最小化原始数据和低维数据的密度间的差异。我们给出理论证明,该算法的逼近误差为((1)4?(+4)),这里代表样本数目,(>0)是低维空间的维数,可以得出越小,则逼近误差则越小。因此DPE比较适用于数据可视化。此外,DPE很自然适合增量学习,因此可以很容易适用于新样本的嵌入。数据的分布能很好地刻画数据的内在模式,我们提出的DPE能有效的保留数据的原始分布特性,因此,其能够有效地发现数据的内在模式(结构),而传统的方法没有明确考虑数据本身的分布。最后,我们在不同的数据集上进行大量实验,结果显示了DPE的有效性和优越性。然后,我们提出了一种保持数据分布特性的无监督特征选择方法Distribution Preserving Feature Selection(DPFS)。该方法试图找到能保持数据分布的最显著的特征,通过给每个特征一个权重,然后最小化原始数据特征和加权特征间的密度估计值的差异。我们给出理论分析显示DPFS可以看成是一种核方法,因此其拥有核函数方法的优点,此外,传统的特征选择方法往往涉及一个详尽的组合优化,我们所提出的方法将特征选择问题作为一个数值优化问题,与组合优化相比,数值优化是更易于处理的。在多种现实生活中的数据集上的广泛的实验结果显示了该算法的有效性。