降维方法与有监督分类在基因芯片数据分析中的应用比较

来源 :中山大学 | 被引量 : 0次 | 上传用户:stenvenxin123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因芯片数据分析是模式识别领域的一个重要研究课题。基因表达数据通常是测定几十个样本中成千上万个基因的表达值,得到的数据矩阵通常是变量数远远大于样本数。用一般的有监督分类方法提取有效特征分类比较困难。PCA,PLS是近年来发展起来的一种提取海量的数据有效特征的有效方法。而且可以获得与原来基因芯片数据更为接近的成分的提取特征的效果,于是分类方法和PCA,PLS被人们应用于基因芯片数据分析中。 本文主要采用两种降维的方法和四种有监督分类的方法来对基因芯片(微阵列)数据进行分析。讨论各种方法对基因样本进行分类的效果。 降维方法:主分量分析(PCA),偏最小二乘回归(PLS)。 有监督分类方法:k-近邻法 (KNN),支持向量机 (SVM),线性判别分析(LDA),二次判别分析(QDA)。 本文所统计分析的数据集是由72例白血病病人(行)和7129个基因(列)组成的白血病基因数据集以及由102例前列腺癌病人(行)和6033个基因(列)组成的前列腺癌基因数据集。面对海量的数据,本文构建了一个基于统计方法的模式识别系统,它主要由三个部分组成:数据获取和预处理,特征提取与选择,分类决策。本文重点比较了不同的特征提取与选择环节和分类决策环节的实验结果,总体过程如下: (1)比较无降维分类,PCA降维分类和PLS降维分类对后面统计判别分类的影响。 (2) 比较在上述不同的特征提取(选择)条件下,各种统计判别方法 (KNN,SVM,DLDA,DQDA)的分类效果。 (3) 通过比较这12种特征提取(选择)方法和统计判别方法的组合结果,得出一定的分析结论,为以后的工业应用提供依据。
其他文献
设Γ(Pn)={M(λ)|λ∈Λ(Pn)}表示单凸多面体Pn上全体small covers.本文给出了L(o)bell多面体L(3)上两个small covers M(λ1)和M(λ2)同胚的充要条件是它们的上同调环同构.同
学位
由于经济全球化导致的剧烈竞争,使得企业面对的是一个变化迅速且无法预测的买方市场,单独一个企业的资源难以迅速形成竞争优势.21世纪的竞争已经不是企业与企业之间的竞争,而
拟合优度检验是统计学中一个非常重要的基本问题。常见的检验方法主要有两大类,一是X2型检验;另一是基于经验分布函数的检验。近期发现,这类检验中的绝大部分都可以归纳成两种统
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
高中生物具有很强的实验性,几乎每一知识及其联系都与实验密切相关,需通过实验加以论述、说明、验证,也需学生亲自设计实验,走进生活、走进社会,在生活与生产实例的体验中把
本文首先通过邻域系引出滤子的概念,并对滤子进行了严密分类并讨论了滤子和超滤子的基本性质及其间的关系;其次通过非标准分析理论给出滤单子的定义并研究其性质,利用滤单子
我们考虑大型稀疏非对称线性系统(线性方程组)Ax=b的求解问题.一般而言,对于大型稀疏问题,迭代法是首先考虑的数值方法,经典的有Jacobi迭代法、SOR迭代、krylov子空间迭代法
生物网络除了一般公认性质外,还发现了具有相关性质.对于这样性质的网络,主要是对一些具体生物网络的测量结果,理论上已有模型提出,但由于实际网络的复杂性,对进一步性质很少
本文研究了三类在边界上特征蜕化的二阶椭圆型偏微分方程,其中涉及:Monge-Ampère方程的正则性,Alexandrov-Nirenberg曲面的紧性,半线性椭圆方程的L∞-模估计.  第一部分以一