论文部分内容阅读
大量的高维癌症数据给我们带来了许多困扰,最显著特点之一就是维数多样本数相对较少。面对这样的高维数据,数据降维成了数据挖掘中必不可少的步骤。降维技术能够通过提取特征,保留局部结构降低维度,帮助机器学习作准确高效地分类。然而选择什么样的降维分类器才能达到最优的分类效果,是本文研究的中心内容。本文所论述的降维方法都是基于流行结构的,有线性降维方法:主成分分析(PCA)、Fisher线性判别分析(LDA)、多维尺度变换(MDS)、局部保留投影(LPP)、类别非局保留投影(CNLPP);非线性降维方法:局部线性嵌入(LLE)、拉普拉斯特征映射(LE)、等距映射(ISOMAP)。其中的局部保留投影,不仅具有保持数据集结构不变的非线性特点,而且具有线性方法计算简单、直接快捷的特点。在癌症数据的降维中表现出了优势。支持向量机(Support Vector Machine,简称SVM)是机器学习和统计学习理论中理论完备、全局优化性能、泛化性能较好的一种方法,满足了高维癌症数据小样本的特征。最近邻分类器(Nearest Neighbor Classifier,简称NNC)也是一种经典,简单的分类器,是实验中最常用的一种分类器。本文主要讨论降维方法与分类器相结合的结合式分类模型对5种癌症数据进行分类的效果比较。全文的主要内容概括如下:(1)概述了高维数据处理领域的发展状况及其所蕴含的一些问题。并对典型降维方法进行了分析,包括各自的算法、优缺点及研究现状。其中着重阐述了保局投影这种线性降维方法。(2)介绍了支持向量机的基本原理,及一般的分类流程。运用Matlab2009实现了SVM对癌症数据的二分类。(3)研究和比较SVM、NNC与一些降维技术相结合的分类模型在癌症数据分类中的性能,为相关的分类研究提供参考。本文所使用的结合式分类模型有:PCA-SVM、LDA—SVM、MDS—SVM、LPP—SVM、CNLPP—SVM、ISOMAP—SVM、LLE—SVM、 LE—SVM、PCA—NNC、LDA—NNC、MDS—NNC、LPP—NNC、CNLPP—NNC、ISOMAP—NNC、LLE—NNC、LE—NNC。实验结果显示LPP—SVM、CNLPP—SVM、LE—SVM有较好的分类效果。