支撑向量机在蛋白质数据特征提取中的应用

来源 :北京师范大学 | 被引量 : 0次 | 上传用户：daidaide21

【摘要】

：

生物芯片是生命科学研究领域中的新方法和新技术,生物信息学与生物芯片密切相关,生物信息学促进了生物芯片的研究和应用,而生物芯片则丰富了生物信息学的研究内容.生物芯片中

【作者】

：

薛峰

【机构】

：

北京师范大学

【出处】

：

北京师范大学

【发表日期】

：

2004年期

【关键词】

：

基因芯片支撑向量机特征提取 SV M

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

生物芯片是生命科学研究领域中的新方法和新技术,生物信息学与生物芯片密切相关,生物信息学促进了生物芯片的研究和应用,而生物芯片则丰富了生物信息学的研究内容.生物芯片中应用最为广泛的是基因芯片(gene chip),又称为DNA微阵列(DNAmicroarray),它是由大量DNA或者寡核苷酸探针密集排列所形成的探针阵列,其工作的基本原理是通过杂交检测基因或者蛋白质的信息[1].现在我们可以通过网络得到大量的基因芯片的数据.http://www-stat.stanford.edu/tibs/lab/ http://www.statsci.org/micrarra/ http://www.ebi.ac.uk/microarray/基因芯片数据都又三个共同的特点,这就是:大量的基因或者蛋白质个数相对于少量的样本个数(small n large p);如果只要将数据分类,不管是将正常人和癌症病人分开,还是不同种病人分开,往往只要少数的基因或者蛋白质就可以完全分类,但是这样的分类效果在统计上是属于过渡拟合的,这是因为基因芯片数据中的每个样本都带有大量与问题没有直接关系的属性变量的原因;而且,基因芯片的数据的每个属性变量之间是有非常强的相关性的,这对分析数据带来了更多的困难.因为基因芯片的数据有这些特点,所以在分析和处理这些数据时需要考虑到数据的相关性,我们需要对数据做特征提取以便更好的分析数据,同时分类器需要有很好的泛化能力,有比较好的稳健性能.该文提供了一种基于支撑向量机[2]的特征提取方法SV M<,RFE>[3].该文利用支撑向量机的线性分类器得到的对每个属性变量(基因或者蛋白质)的权重w,用这个权重来对每个属性变量进行排序,然后删除对整个权重‖w‖<2>影响最小的属性变量,这样如此下去,也就得到对整个数据属性变量的一个排序.然后可以用这个排序挑选相应的属性变量(基因或者蛋白质)来构造分类器.同时利用LOOCV(leave one out cross validation)方法来选取特征子集和对分类器做一个泛化能力的评估.该文利用以上所述的方法对三个数据集进行了分析:由SELDi技术得到的肺癌蛋白质数据集、由SELDi技术得到的前列腺炎蛋白质数据集以及从因特网上下载的cDNA芯片的直肠癌数据集(62×2000).该文利用SV M<,RFE>方法对所有的数据集做特征提取,然后用支撑向量机作为分类器对所提取出的特征子集做评估.我们将结果与文献[4]中的结果比较.同时将SV M<,RFE>的方法得到的结果与经典的特征提取器和分类器—决策树(decision tree)相比较,得到了比较好的结果.而且我们从大量的数据中挖掘出了决策树没有发现的信息,同时我们的支撑向量机分类器相对于决策树的效果比较稳健而且不会随着数据集的改变有很大的变化.最后我们利用C++代码和Matlab代码分别实现了基于支撑向量机的特征提取方法SV M<,RFE>.但是由于数据的特点(small n large p)和支撑向量机方法是一个复杂度很高的方法,因此我们的程序在处理大量数据时复杂度非常高O(n<4>),其中n是属性变量的个数(基因或者蛋白质).colon Tumor数据62×2000所用时间接近20分钟.

其他文献

约束线性模型参数的Stein估计和岭估计的研究

本文主要研究了基于齐次等式约束线性模型下的岭估计和 Stein估计。在均方误差(MSE)、均方误差阵(MSEM)和Pitman Closeness(PC)准则意义下,结合两种估计方法的思想,提出一种

学位

约束线性模型Stein估计岭估计最优无偏预测

强度模型和信用衍生品定价

信用风险主要指由于借款人或市场交易对手违约而导致损失的可能性，更一般地是指由于借款人的信用评级的变化和履约能力的变化导致其债务的市场价值变动而引起损失的可能性。信

学位

信用衍生品强度模型博弈论定价模型信用风险

《苍生》

请下载后查看，本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.

期刊

方差分量的Fiducial推断

方差分量模型在工业、化学、生物和行为科学等领域广泛应用.构造方差分量函数的区间估计是一类比较重要的实际问题.目前常用的方法是Modified Large-Sample(MLS)方法,但是MLS

学位

方差分量限制参数空间压缩Fiducial分布Fiducial区间的频率性质

Quantile回归及其在金融收益率分析和VaR类风险管理模型中的运用

本文首次利用Quantile回归思想研究了金融收益率(log return)的分布问题和风险管理问题。对金融收益率分布问题的研究有很长的历史，并产生了非常丰富的模型和结果，但这些研

学位

Quantile回归线性Quantile回归经典回归分析收益率Quantile分布族风险管理

无界区域上非牛顿渗流方程问题的爆破Fujita曲线和整体存在曲线

学位

带惩罚项的二维Navier-Stokes方程的强解的全局吸引子的存在性

该文主要考虑粘性不可压缩流体并带有惩罚项的二维Navier-Stokes方程:(方程略)的长时间渐近行为.为此,我们首先证明该方程在V和D(A)中所定义的解半群的连续性以及相应空间中

学位

吸收集吸引子ω-极限紧非紧性测度条件(C)Navier-Stokes方程惩罚

齐次Bent函数的一种搜索算法

该文讨论了Bent函数及齐次Bent函数的一些性质.除了2次、3次齐次Bent函数已经得到一些结果外,对于Bent函数次数≥4次的情形,目前还未有结果.由于齐次Bent函数的搜索空间随着

学位

Bent函数齐次Bent函数置换群计算机搜索

高中物理课堂实验的优化与现实意义探寻

在当前,高中物理课程的学习对于每一个高中学生来说都有着极为重要作用.然而,在传统教育观念的影响下,目前教师普遍重视物理理论知识的传授,忽略高中物理课堂实验的教学.在本

期刊

高中教育物理课程实验教学优化现实意义

离散时间自适应控制和网络同步的几个问题

该文包括两部分内容:(1)离散时间系统自适应控制的两个问题对实际的控制系统,当过程的一些结构特性或物理参数发生动态变化时,往往需要反馈控制做出相应的调整从而实现控制目

学位

多模型自适应控制加权最小二乘投影最小二乘双重控制复杂系统离散时间复杂网络耦合关联矩阵

支撑向量机在蛋白质数据特征提取中的应用

与本文相关的学术论文