基于生物信息数据的几种交叉验证方法比较

来源 :山西大学 | 被引量 : 10次 | 上传用户：yst598

【摘要】

：

在生物信息学的研究中,主要遇到的是小样本高维数的数据,如在DNA微阵列表达数据中,往往包含成千上万个基因而样本个数仅仅只有数十个。如何进行此类数据的分析是当今的研究热

【作者】

：

胡军艳

【出处】

：

山西大学

【发表日期】

：

2013年01期

【关键词】

：

交叉验证均衡3×2交义验证预测误差 MSE

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在生物信息学的研究中,主要遇到的是小样本高维数的数据,如在DNA微阵列表达数据中,往往包含成千上万个基因而样本个数仅仅只有数十个。如何进行此类数据的分析是当今的研究热点和难点。典型地,它主要有三个目标：特征选择(基因选择),从全部特征(基因表达水平)中选择出一个特征子集,以便构造一个好的分类器；模型(分类器)选择,估计不同分类器的性能,从中选出最好的分类器；模型评估,对已经选定的分类器,估计它在新数据上的预测误差。实际上预测误差的估计贯穿整个过程,因为预测误差是评价分类器性能的重要指标。当数据量足够大时,可以留出一部分数据作为测试集,通过此测试集上的测试误差来作为预测误差的估计,但是在此不适用。目前,预测误差常用各种形式的交叉验证来估计。本文中,我们将均衡3×2交叉验证应用于生物数据下预测误差的估计任务,模拟实验表明,在均方误差意义下预测误差的均衡3×2交叉验证估计优于常用的2折、5折、10折以及随机5×2交叉验证。在统计学中,重复实验次数越多应该得到的结果越准确,为此我们还考虑了多于3次重复的均衡m×2交叉验证。但是实验结果表明随着m值的增大,预测误差估计的性能并没有显著的提高。为此,基于估计的方差、偏差、均方误差、计算复杂度等因素综合考虑,我们得出在生物信息数据中均衡3×2交叉验证可能更有优势。

其他文献

中药归经与疾病归经相关探讨

中药归经理论是通过脏腑辨证用药,从临床疗效观察中总结出来的用药理论,它具有明确的定位概念,但在临床应用中,药物归经理论的重要性常常被忽略。通过对各系疾病用药归经统计

期刊

中药归经疾病归经相关

中职德育教育中存在的问题与对策

"育人为本,德育为先"是教育贯彻的基本原则,是通过提升学生的思想品德,从而提高国民的基本素质。该文通过针对中职学生思想品德、中职院校及中职教师自身存在的问题,经过长时

期刊

中职院校德育教育问题对策评价制度

育成母牛日粮营养进食量对粪能排出量的影响

本试验旨在研究日粮营养进食量与粪能排出量的关系,选取32头西门塔尔杂交育成母牛进行消化代谢试验,对其营养成分粗蛋白(CP)、中性洗涤纤维(NDF)、酸性洗涤纤维(ADF)及粪能排

期刊

粪能排出量营养物质采食量中性洗涤纤维肉牛

基于工程教育理念的高职机械制图教学方法探索

针对高职机械制图课程，积极开展教学改革，运用多种教学方法，将生产实践与理论教学紧密联系起来。

期刊

工程教育理念机械制图教学方法

数学学习兴趣及其培养

学习兴趣是学习动机的一种最重要的成分,它对学生的学习起着重要的作用.学习兴趣促进学生智力的发展,获得较大的成功;同时,这种愉快的精神感受又促进学生对数学学习产生更大

会议

学习兴趣数学学习数学教学

BW—150泥浆泵中泵阀改进研究

摘要：泵阀是泥浆泵中一个非常关键的部件，属于泵的易损件。通过对泵阀的工作原理、阀在稳定与非非稳定状态下的运动规律以及泵阀失效分析，提出了泵閥的几点改进意见，提高了泵阀使用寿命。

期刊

泵阀运动规律失效

条件性基因敲除动物及其在毒理学研究领域的应用进展

动物实验是毒理学研究中的重要手段和核心内容。传统的基因敲除动物在胚胎致死性基因研究方面具有一定局限性。条件性基因敲除动物在克服传统基因敲除动物缺陷的情况下,为更

期刊

条件性基因敲除动物毒理学机制毒理基因组学

浅谈高校数学教育

高校数学教育的内容、方式、教法等方面存在的问题,不利于大学生综合素质的提高和适应能力的增强,必须围绕培养思维方式和解决实际问题进行教改,以满足社会生产的发展需要。

期刊

数学教育思维能力以人为本科学发展

供给学派减税理论与政策评析

在供给侧改革背景下,结构性减税对促进我国经济发展、增加就业机会、改善社会福利具有重要意义。20世纪70年代以"拉弗曲线"为代表的供给学派减税理论对美国里根政府的经济政

期刊

减税供给学派拉弗曲线

英语动词的用法及其语义特征

期刊

英语动词语义特征

基于生物信息数据的几种交叉验证方法比较

与本文相关的学术论文