论文部分内容阅读
当前数据维数的大幅增长给数据处理带来了前所未有的挑战,如何从这些高维复杂的数据中发现事物的本质规律成为了迫切需要解决的问题.作为处理高维数据中非常重要的前处理步骤~数据降维~也就越来越受到人们重视.对高维复杂数据降维方法的研究,是一个非常有挑战性的问题,有着重要的理论价值,并在模式识别、生物信息学、数字图像处理等领域有着广泛的应用.本文研究以数据的分类、可视化为目标的高维复杂数据降维的理论与方法,提出如下针对不同情形的降维算法:
在基于可分性准则的前提下,针对目前缺乏有效降维算法的高维小样本数据集,提出了一种新的有监督的特征提取算法—判别多维尺度映射(discriminate multidimensional mapping,DMM).它是在结合了经典的多维尺度变换(classical MDS)和线性判别分析(LDA)优点的基础上提出来的.DMM算法能有效地处理维数远大于样本数的数据集,并且还有着很多良好的性质:计算量小,无任何参数的设置,具有解析解.文中给出了算法的理论支持,并通过大量的数值实验验证了算法的有效性.
当DMM算法应用于大样本数据集时,会出现计算量过大的问题.本文引入landmark思想,提出了适合高维大样本数据集的改进的DMM算法—landmark判别多维尺度映射(LDMM).LDMM算法不仅能极大地减少计算量,而且参数设置简单灵活.数值实验显示了算法的稳定性和有效性.
提出了基于流形结构数据集的特征提取算法—测地度量判别映射(geodesic—metric discrim-inate mapping,GDM).它是在DMM的基础上通过引入测地距离来保留数据分布在全局上的非线性特性,从而实现了将线性降维算法DMM到非线性降维算法GDM的转化.数值实验验证了GDM能使存在流形结构数据集的降维结果适于分类.
当数据集存在流形结构,并且给定的样本点能近似逼近流形时,Isomap算法能有效地发现数据的内在低维结构.但是当部分数据缺失时,Isomap算法中测地距离的计算会产生巨大的偏差而使算法失效.本文针对具有间断流形结构的数据集提出了测地距离的计算方法,推广了Isomap算法.大量的数值实验表明它在数据缺失的情况下也能有效地发现数据的内有结构.类似于Isomap,新的测地距离计算方法同样也适用于GDM.