支撑向量机在蛋白质数据特征提取中的应用

来源 :北京师范大学 | 被引量 : 0次 | 上传用户:daidaide21
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物芯片是生命科学研究领域中的新方法和新技术,生物信息学与生物芯片密切相关,生物信息学促进了生物芯片的研究和应用,而生物芯片则丰富了生物信息学的研究内容.生物芯片中应用最为广泛的是基因芯片(gene chip),又称为DNA微阵列(DNAmicroarray),它是由大量DNA或者寡核苷酸探针密集排列所形成的探针阵列,其工作的基本原理是通过杂交检测基因或者蛋白质的信息[1].现在我们可以通过网络得到大量的基因芯片的数据.http://www-stat.stanford.edu/tibs/lab/ http://www.statsci.org/micrarra/ http://www.ebi.ac.uk/microarray/基因芯片数据都又三个共同的特点,这就是:大量的基因或者蛋白质个数相对于少量的样本个数(small n large p);如果只要将数据分类,不管是将正常人和癌症病人分开,还是不同种病人分开,往往只要少数的基因或者蛋白质就可以完全分类,但是这样的分类效果在统计上是属于过渡拟合的,这是因为基因芯片数据中的每个样本都带有大量与问题没有直接关系的属性变量的原因;而且,基因芯片的数据的每个属性变量之间是有非常强的相关性的,这对分析数据带来了更多的困难.因为基因芯片的数据有这些特点,所以在分析和处理这些数据时需要考虑到数据的相关性,我们需要对数据做特征提取以便更好的分析数据,同时分类器需要有很好的泛化能力,有比较好的稳健性能.该文提供了一种基于支撑向量机[2]的特征提取方法SV M<,RFE>[3].该文利用支撑向量机的线性分类器得到的对每个属性变量(基因或者蛋白质)的权重w,用这个权重来对每个属性变量进行排序,然后删除对整个权重‖w‖<2>影响最小的属性变量,这样如此下去,也就得到对整个数据属性变量的一个排序.然后可以用这个排序挑选相应的属性变量(基因或者蛋白质)来构造分类器.同时利用LOOCV(leave one out cross validation)方法来选取特征子集和对分类器做一个泛化能力的评估.该文利用以上所述的方法对三个数据集进行了分析:由SELDi技术得到的肺癌蛋白质数据集、由SELDi技术得到的前列腺炎蛋白质数据集以及从因特网上下载的cDNA芯片的直肠癌数据集(62×2000).该文利用SV M<,RFE>方法对所有的数据集做特征提取,然后用支撑向量机作为分类器对所提取出的特征子集做评估.我们将结果与文献[4]中的结果比较.同时将SV M<,RFE>的方法得到的结果与经典的特征提取器和分类器—决策树(decision tree)相比较,得到了比较好的结果.而且我们从大量的数据中挖掘出了决策树没有发现的信息,同时我们的支撑向量机分类器相对于决策树的效果比较稳健而且不会随着数据集的改变有很大的变化.最后我们利用C++代码和Matlab代码分别实现了基于支撑向量机的特征提取方法SV M<,RFE>.但是由于数据的特点(small n large p)和支撑向量机方法是一个复杂度很高的方法,因此我们的程序在处理大量数据时复杂度非常高O(n<4>),其中n是属性变量的个数(基因或者蛋白质).colon Tumor数据62×2000所用时间接近20分钟.
其他文献
本文主要研究了基于齐次等式约束线性模型下的岭估计和 Stein估计。在均方误差(MSE)、均方误差阵(MSEM)和Pitman Closeness(PC)准则意义下,结合两种估计方法的思想,提出一种
信用风险主要指由于借款人或市场交易对手违约而导致损失的可能性,更一般地是指由于借款人的信用评级的变化和履约能力的变化导致其债务的市场价值变动而引起损失的可能性。信
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
方差分量模型在工业、化学、生物和行为科学等领域广泛应用.构造方差分量函数的区间估计是一类比较重要的实际问题.目前常用的方法是Modified Large-Sample(MLS)方法,但是MLS
本文首次利用Quantile回归思想研究了金融收益率(log return)的分布问题和风险管理问题。 对金融收益率分布问题的研究有很长的历史,并产生了非常丰富的模型和结果,但这些研
学位
该文主要考虑粘性不可压缩流体并带有惩罚项的二维Navier-Stokes方程:(方程略)的长时间渐近行为.为此,我们首先证明该方程在V和D(A)中所定义的解半群的连续性以及相应空间中
该文讨论了Bent函数及齐次Bent函数的一些性质.除了2次、3次齐次Bent函数已经得到一些结果外,对于Bent函数次数≥4次的情形,目前还未有结果.由于齐次Bent函数的搜索空间随着
在当前,高中物理课程的学习对于每一个高中学生来说都有着极为重要作用.然而,在传统教育观念的影响下,目前教师普遍重视物理理论知识的传授,忽略高中物理课堂实验的教学.在本
该文包括两部分内容:(1)离散时间系统自适应控制的两个问题对实际的控制系统,当过程的一些结构特性或物理参数发生动态变化时,往往需要反馈控制做出相应的调整从而实现控制目