基于生物信息数据的几种交叉验证方法比较

来源 :山西大学 | 被引量 : 10次 | 上传用户:yst598
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在生物信息学的研究中,主要遇到的是小样本高维数的数据,如在DNA微阵列表达数据中,往往包含成千上万个基因而样本个数仅仅只有数十个。如何进行此类数据的分析是当今的研究热点和难点。典型地,它主要有三个目标:特征选择(基因选择),从全部特征(基因表达水平)中选择出一个特征子集,以便构造一个好的分类器;模型(分类器)选择,估计不同分类器的性能,从中选出最好的分类器;模型评估,对已经选定的分类器,估计它在新数据上的预测误差。实际上预测误差的估计贯穿整个过程,因为预测误差是评价分类器性能的重要指标。当数据量足够大时,可以留出一部分数据作为测试集,通过此测试集上的测试误差来作为预测误差的估计,但是在此不适用。目前,预测误差常用各种形式的交叉验证来估计。本文中,我们将均衡3×2交叉验证应用于生物数据下预测误差的估计任务,模拟实验表明,在均方误差意义下预测误差的均衡3×2交叉验证估计优于常用的2折、5折、10折以及随机5×2交叉验证。在统计学中,重复实验次数越多应该得到的结果越准确,为此我们还考虑了多于3次重复的均衡m×2交叉验证。但是实验结果表明随着m值的增大,预测误差估计的性能并没有显著的提高。为此,基于估计的方差、偏差、均方误差、计算复杂度等因素综合考虑,我们得出在生物信息数据中均衡3×2交叉验证可能更有优势。
其他文献
中药归经理论是通过脏腑辨证用药,从临床疗效观察中总结出来的用药理论,它具有明确的定位概念,但在临床应用中,药物归经理论的重要性常常被忽略。通过对各系疾病用药归经统计
"育人为本,德育为先"是教育贯彻的基本原则,是通过提升学生的思想品德,从而提高国民的基本素质。该文通过针对中职学生思想品德、中职院校及中职教师自身存在的问题,经过长时
本试验旨在研究日粮营养进食量与粪能排出量的关系,选取32头西门塔尔杂交育成母牛进行消化代谢试验,对其营养成分粗蛋白(CP)、中性洗涤纤维(NDF)、酸性洗涤纤维(ADF)及粪能排
针对高职机械制图课程,积极开展教学改革,运用多种教学方法,将生产实践与理论教学紧密联系起来。
学习兴趣是学习动机的一种最重要的成分,它对学生的学习起着重要的作用.学习兴趣促进学生智力的发展,获得较大的成功;同时,这种愉快的精神感受又促进学生对数学学习产生更大
摘要:泵阀是泥浆泵中一个非常关键的部件,属于泵的易损件。通过对泵阀的工作原理、阀在稳定与非非稳定状态下的运动规律以及泵阀失效分析,提出了泵閥的几点改进意见,提高了泵阀使用寿命。
动物实验是毒理学研究中的重要手段和核心内容。传统的基因敲除动物在胚胎致死性基因研究方面具有一定局限性。条件性基因敲除动物在克服传统基因敲除动物缺陷的情况下,为更
高校数学教育的内容、方式、教法等方面存在的问题,不利于大学生综合素质的提高和适应能力的增强,必须围绕培养思维方式和解决实际问题进行教改,以满足社会生产的发展需要。
在供给侧改革背景下,结构性减税对促进我国经济发展、增加就业机会、改善社会福利具有重要意义。20世纪70年代以"拉弗曲线"为代表的供给学派减税理论对美国里根政府的经济政