论文部分内容阅读
生物芯片是生命科学研究领域中的新方法和新技术,生物信息学与生物芯片密切相关,生物信息学促进了生物芯片的研究和应用,而生物芯片则丰富了生物信息学的研究内容.生物芯片中应用最为广泛的是基因芯片(gene chip),又称为DNA微阵列(DNAmicroarray),它是由大量DNA或者寡核苷酸探针密集排列所形成的探针阵列,其工作的基本原理是通过杂交检测基因或者蛋白质的信息[1].现在我们可以通过网络得到大量的基因芯片的数据.http://www-stat.stanford.edu/tibs/lab/ http://www.statsci.org/micrarra/ http://www.ebi.ac.uk/microarray/基因芯片数据都又三个共同的特点,这就是:大量的基因或者蛋白质个数相对于少量的样本个数(small n large p);如果只要将数据分类,不管是将正常人和癌症病人分开,还是不同种病人分开,往往只要少数的基因或者蛋白质就可以完全分类,但是这样的分类效果在统计上是属于过渡拟合的,这是因为基因芯片数据中的每个样本都带有大量与问题没有直接关系的属性变量的原因;而且,基因芯片的数据的每个属性变量之间是有非常强的相关性的,这对分析数据带来了更多的困难.因为基因芯片的数据有这些特点,所以在分析和处理这些数据时需要考虑到数据的相关性,我们需要对数据做特征提取以便更好的分析数据,同时分类器需要有很好的泛化能力,有比较好的稳健性能.该文提供了一种基于支撑向量机[2]的特征提取方法SV M<,RFE>[3].该文利用支撑向量机的线性分类器得到的对每个属性变量(基因或者蛋白质)的权重w,用这个权重来对每个属性变量进行排序,然后删除对整个权重‖w‖<2>影响最小的属性变量,这样如此下去,也就得到对整个数据属性变量的一个排序.然后可以用这个排序挑选相应的属性变量(基因或者蛋白质)来构造分类器.同时利用LOOCV(leave one out cross validation)方法来选取特征子集和对分类器做一个泛化能力的评估.该文利用以上所述的方法对三个数据集进行了分析:由SELDi技术得到的肺癌蛋白质数据集、由SELDi技术得到的前列腺炎蛋白质数据集以及从因特网上下载的cDNA芯片的直肠癌数据集(62×2000).该文利用SV M<,RFE>方法对所有的数据集做特征提取,然后用支撑向量机作为分类器对所提取出的特征子集做评估.我们将结果与文献[4]中的结果比较.同时将SV M<,RFE>的方法得到的结果与经典的特征提取器和分类器—决策树(decision tree)相比较,得到了比较好的结果.而且我们从大量的数据中挖掘出了决策树没有发现的信息,同时我们的支撑向量机分类器相对于决策树的效果比较稳健而且不会随着数据集的改变有很大的变化.最后我们利用C++代码和Matlab代码分别实现了基于支撑向量机的特征提取方法SV M<,RFE>.但是由于数据的特点(small n large p)和支撑向量机方法是一个复杂度很高的方法,因此我们的程序在处理大量数据时复杂度非常高O(n<4>),其中n是属性变量的个数(基因或者蛋白质).colon Tumor数据62×2000所用时间接近20分钟.