论文部分内容阅读
随着信息时代的到来,数据集增长和更新更快、数据维度更高、非结构化性更突出。面对大量真实的高维数据,人们渴求通过有效的降维而在低维很好的处理利用,如分类、基于内容检索、模式识别和可视化应用等。
2000年《Science》同一期上的两篇文章分别提出了等距映射(Isomap)和局部线性嵌入(LLE)算法掀起了新‘轮的流形学习和非线性降维研究热潮,它们都利用了近邻信息来保留高维流形的内在几何性质并把它在低维空间重构,近邻的选择在这些算法中起着非常重要的作用。然而,这些方法通常都在原空间根据现有的欧式度量直接选择近邻,在遇到样本稀疏和噪音的情况下,由于近邻选择存在的不正确将造成后面在计算和保存流形内在结构信息时出现严重偏差,从而导致降维结果不理想或失败。
本文试图把每一个样本点变换到一个新的度量意义下的相对空间中的点,使这种样本点及其内在的近邻能够在相对空间仍然为近邻,而那些由于噪音或稀疏原因在原空间计算为近邻的点在相对空间它们则变的比较远。这样,在相对空间中,可以选择出它内在的近邻,从而可以获得在原空间中样本点的真实的近邻信息。本文在构造合适这种近邻关系变化的相对空间时,利用自身高维空间样本的所有点或部分点,用常用的距离(相异度)来描述任意一点和其它各点的关系。当有两点在欧式或测地意义下到其它各样本点的距离都比较近的时候,实际上可以认为它们在这个样本集中具有内在的近邻关系。本文就是通过构造这样一种用它到其它点的距离来决定它在相对空间中的位置的方式把所有点转变到相对空间的,在相对空间能够更真实的判断它们内在的近邻关系。本文称这种变换为相对变换,形成的空间为相对空间。本文在对Isomap试验中把样本点变换到相对空间,在相对空间选择真实的近邻后,再用原Isomap在原空间使用对应的近邻进行余下步骤的处理,发现降维有更好的效果,尤其对数据有很好的抗稀疏和噪音能力。此外,本文提出了一种新的降维误差分析方法--近邻保持度的定义,它相比目前的残差分析有着更直观、与样本数和算法类型无关等优点。
文章最后做了总结并提出进一步研究的方向。