论文部分内容阅读
随着数据挖掘在各行业中的逐渐运用,分类技术作为数据挖掘的一种重要手段也随之被许多研究者所重视。然而,由于数据的数量和复杂度急剧提升,对数据的分类难度也呈指数增加。如果直接将高维数据进行处理,将导致维数灾难的产生。流形学习是一种解决维数灾难问题的有效方法。它是从观测到的现象中去寻找事物的本质,找到产生数据的内在规律,但是流形学习的结果并不一定利于分类处理,因为它的目的只在于降维,并不是以分类为目的。局部插值嵌入算法是一种优秀的流形降维算法,它对于嵌入在高维输入空间的低维流形,通过获得样本点邻域在切空间上投影的局部坐标,在通过样条函数的嵌入将局部坐标映射成为全局低维坐标,尽量减少样本数据在映射过程中的映射误差,这样能够极大地保持样本数据的局部特性。但是,局部插值嵌入算法同样囿于流形学习无法直接应用于分类问题的局限性,无法利用已有的标签信息并用以增强降维结果的可判别性,因此,我们有必要对局部插值嵌入算法进行改进使之可运用于高维数据的分类操作。本文着重研究了流形分类算法问题,研究了三种基于局部插值嵌入的流形分类算法,并进行了简单的应用。具体研究成果如下:(1)本文提出了一种基于局部插值嵌入的监督式的流形分类算法,结合线性判别分析的特点,利用已知的标签信息,最大化类间离散度的同时最小化类内离散度,并将局部插值嵌入的目标函数作为正则项用于局部数据结构信息的保持,并通过求取的最佳映射,对测试数据集进行数据扩展。(2)本文提出了基于局部插值嵌入的线性分类算法,利用训练数据的监督信息,分别构建类内图和类间图选择邻域,最大化利用训练数据的信息,根据所选择的邻域分别构建切空间,然后将切空间的坐标点映射至全局低维坐标,这时就可以计算获得最佳的线性映射,最后,根据这个线性映射完成对测试数据的扩展。(3)本文提出了基于局部插值嵌入的非线性分类算法,根据之前提出的线性算法,通过核函数改造为适用于非线性数据的方法。将原本的寻找最佳线性映射转变为使用核技巧寻找训练数据的非线性嵌入,并同样使用核技巧对测试数据推导其扩展形式,获得测试数据在低维目标流形中的非线性嵌入,从而具有更好的泛化性能,能够更好的应用于处理真实数据的分类问题。(4)本文设计了一种针对医学数据的分类系统,在此系统中应用本文提出的流形分类算法来处理医学数据。本系统主要功能包括三个部分:医学数据处理、结果显示、医学数据的管理。