论文部分内容阅读
基因芯片数据分析是模式识别领域的一个重要研究课题。基因表达数据通常是测定几十个样本中成千上万个基因的表达值,得到的数据矩阵通常是变量数远远大于样本数。用一般的有监督分类方法提取有效特征分类比较困难。PCA,PLS是近年来发展起来的一种提取海量的数据有效特征的有效方法。而且可以获得与原来基因芯片数据更为接近的成分的提取特征的效果,于是分类方法和PCA,PLS被人们应用于基因芯片数据分析中。
本文主要采用两种降维的方法和四种有监督分类的方法来对基因芯片(微阵列)数据进行分析。讨论各种方法对基因样本进行分类的效果。
降维方法:主分量分析(PCA),偏最小二乘回归(PLS)。
有监督分类方法:k-近邻法 (KNN),支持向量机 (SVM),线性判别分析(LDA),二次判别分析(QDA)。
本文所统计分析的数据集是由72例白血病病人(行)和7129个基因(列)组成的白血病基因数据集以及由102例前列腺癌病人(行)和6033个基因(列)组成的前列腺癌基因数据集。面对海量的数据,本文构建了一个基于统计方法的模式识别系统,它主要由三个部分组成:数据获取和预处理,特征提取与选择,分类决策。本文重点比较了不同的特征提取与选择环节和分类决策环节的实验结果,总体过程如下:
(1)比较无降维分类,PCA降维分类和PLS降维分类对后面统计判别分类的影响。
(2) 比较在上述不同的特征提取(选择)条件下,各种统计判别方法 (KNN,SVM,DLDA,DQDA)的分类效果。
(3) 通过比较这12种特征提取(选择)方法和统计判别方法的组合结果,得出一定的分析结论,为以后的工业应用提供依据。