论文部分内容阅读
特征变换和测度学习在模式识别中具有十分重要意义。通过特征变换,可以得到样本新的表示以及样本间更合适的距离测度,从而更有利于后续处理,如聚类和分类等。不降低维数的测度学习算法通常是将样本从输入空间映射到一个维数相同的新空间,而具备降维能力的测度学习算法则是将样本从输入空间映射到一个较低维的新空间。本文首先对标准正交变换、白化变换、主元分析和线性判别分析等特征变换进行了比较深入的分析,试图探讨这些特征变换方法的本质以及相互之间的联系。接着,对局部线性嵌入LLE和Laplacian特征映射等流形学习算法进行了介绍。然后,提出了一种新的基于k近邻分类准则的特征变换算法—判别近邻嵌入算法DNE(Discriminant Neighborhood Embedding)。DNE算法构造一个判别邻接矩阵来描述多类样本数据集的局部几何结构,利用该判别邻接矩阵定义了一个代价函数,以求得一个最优的变换矩阵,将样本映射到新的空间。在新的空间中,样本之间的距离测度发生了变化,同类近邻样本点会尽可能地靠近,异类近邻样本点尽可能地远离。通过谱分析,DNE算法能够估计出新空间的最佳维数,这是和其他很多相关算法的区别所在。DNE算法能有效解决高维模式分类中经常存在的“维数灾难”问题,且通过将样本映射到一个低维空间,降低了k近邻分类器的计算代价。该算法是非参数的,不必假定样本符合Gaussian分布,对不同分布的数据更具有适应性;该算法是非迭代的,训练过程更有效率;且不存在高维小样本情形下矩阵奇异的问题。利用神经网络模型和核方法,我们将DNE算法进行了非线性扩展。在非线性情况下,先将样本点映射到一个高维Hilbert空间,然后在高维空间内找到适合k近邻分类的子空间,此新空间的最佳维数可能低于样本的原始维数,也可能等于或大于样本的原始维数。实验表明非线性DNE算法特别适合维数较低但样本数较多的数据集。