基于改进的随机森林算法的结核病易感基因挑选研究

来源 :西南大学 | 被引量 : 0次 | 上传用户：zxz6381

【摘要】

：

本文旨在改进随机森林算法来筛选特征基因,希望找出较少的差异基因从而有助于病情的分析,但是人类的基因数量庞大,想要针对某一疾病快速找出差异基因是一件不容易的事情。随

【作者】

：

杨英

【出处】

：

西南大学

【发表日期】

：

2004年期

【关键词】

：

随机森林特征筛选支持向量机 K折交叉验证

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

本文旨在改进随机森林算法来筛选特征基因,希望找出较少的差异基因从而有助于病情的分析,但是人类的基因数量庞大,想要针对某一疾病快速找出差异基因是一件不容易的事情。随机森林可以计算出每个特征基因对分类的重要性,而且也适用于处理大量数据,所以研究使用随机森林算法对特征基因进行筛选。随机森林在建立决策树时对样本和特征选择具有随机性,其计算出的特征重要性会受到噪声的影响,甚至可能出现比较重要的特征基因被噪声淹没的现象。为了减少噪声对筛选结果的不良影响,根据随机森林结合多元统计中的向后剔除法思想的基础上再改进算法,将原改进中没有标准的参数进一步的标准化。主要通过结合K折交叉验证和随机森林模型的建立,每一次产生新的训练样本都会建立随机森林模型,并计算其准确率,在这过程中引入误差增量作为阈值,利用该阈值来判断是否停止交叉验证建立随机森林模型。若误差增量超过指定参数则停止迭代,选择准确率最高的随机森林模型来计算基因重要性,将基因的重要性值从大到小依次排列,然后剔除末尾一定比例的特征基因,剩下的基因数据重复以上步骤进行K折交叉验证建立随机森林模型,一直循环重复筛选直到剩下所需的特征基因数量。为了对比改进随机森林算法的优势,同时使用简单随机森林算法和传统特征筛选算法对基因数据进行筛选分析,最后利用支持向量机对三种算法筛选的差异基因进行判别分析。经过对结核病基因数据的实证研究,本文主要结论如下:1、特征筛选部分,分别使用传统特征筛选方法,随机森林算法,改进随机森林算法对原始数据中的8068个基因特征筛选,并且对比分析三种算法筛选的前20个基因,发现筛选出来的基因以及基因表达量差异较大,说明这三种算法存在较大的差异。2、判别分类部分,主要采用支持向量机,分别利用传统特征筛选算法、随机森林算法、改进随机森林算法筛选的特征基因对检验样本进行判别分类。计算其分类准确率,结果显示:改进随机森林算法筛选的前13个基因对检验样本进行分类时,分类准确率达到了90%,准确率明显高于简单随机森林算法和传统特征筛选算法。3、在随机森林加入多元统计的向后剔除法的基础上进一步改进随机森林算法,弥补了之前算法的一些缺陷,结合算法筛选出来的特征基因对比分析与支持向量机的判别结果,改进随机森林算法不仅提高了分类准确率还能缩小特征集合,该算法在基因挑选过程中具有较大优势。

其他文献

延安时期陈云党的建设思想研究

自党创立以来,加强党的自身建设,一直是关乎中国革命、建设和改革全局的重大课题,是关乎中华民族伟大复兴的根本问题,同时也是关系到广大人民利益和党自身发展的核心问题。中

学位

延安时期陈云党的建设

基于DEM的地形素描半自动绘制研究

地形素描是在对地理环境认知、分析和概括的基础上,用线条来描绘和反映地形、地貌的结构和内在的形质,比简单临摹现实景象更加深刻和真实。然而,随着计算机数字化时代的到来,

学位

地形素描DEM黄土地貌视觉层次地形综合

矢量地理数据脱密模型的抗攻击性评价方法研究

地理信息是国家基本国情中的重要战略资源,直接关系到国家安全和利益。矢量数据是被广泛使用的地理信息数据,生产和维护这些数据需要耗费大量的人力、物力和财力。目前在矢量

学位

矢量地理数据脱密模型攻击方法抗攻击性评价指标

基于嵌套布置的三维阵列DOA估计

信号波达方向(Direction Of Arrival,DOA)估计是阵列信号处理在天线阵上的应用之一,在同一DOA估计算法下,DOA估计误差受阵列实际阵元数(阵列孔径)、信噪比和快拍数的影响。阵列阵元数的增加无疑会带来估计成本的急剧上升,如何在阵列阵元数一定时,提高阵列DOA估计精度是值得研究的问题。近几年,互质阵列和嵌套阵列的提出,引起了人们广泛关注,和均匀阵列相比,互质阵列和嵌套阵列能增大阵

学位

波达方向估计互质阵列嵌套阵列三维阵列克拉美罗下界

明清时期北部湾钦廉海域“珠盗”治理及相关问题研究

北部湾海域因为其优越的自然环境,珠贝质量好,珍珠业较为发达。明政府采取派遣官员参与采珠活动,看守珠池等多种措施管理珍珠业。明统治者为了最大限度数量的获得珍珠,严格管

学位

明清时期北部湾珠盗社会史

基于时序的小麦定向栽培可视化系统设计与实现

随着社会不断进步,人们整体文化水平不断提高,对知识的需求也在不断增加。首先,由于知识的需求量不断增加,如何有效的传播知识已经成为研究热点,知识可视化作为一个新兴的领

学位

三维可视化知识可视化知识视觉表征小麦栽培三维可视化系统

不同脱乙酰度魔芋葡甘聚糖对鲢鱼糜凝胶特性的影响研究

鱼糜制品由于具备蛋白质含量高、脂肪含量低、口感嫩爽等特点,广受消费者喜欢。随着海水鱼资源的日益匮竭,产量巨大的淡水鱼资源作为替代品逐步被人们重视起来,但是淡水鱼鱼

学位

不同脱乙酰度KGM鲢鱼糜凝胶性能水分状态热聚集行为蛋白特性

角色游戏对学龄初期儿童课堂学业自立养成的个案研究

目的:探讨以课堂学业自立为主题的角色游戏对个案学龄初期儿童课堂学业自立养成的效果。方法:本研究采用单个被试A-B基线实验设计,以角色游戏为自变量,学龄初期儿童课堂学业

学位

课堂学业自立角色游戏学龄初期儿童

清代郭尔罗斯二旗疆界变迁研究

郭尔罗斯二旗疆界变迁,是清代蒙旗历史地理变迁中的一部分,也是内蒙古近代社会史的重要内容,研究郭尔罗斯二旗疆界变迁对蒙古史研究具有重要的理论和现实意义,同时对中国边疆

学位

清代郭尔罗斯二旗疆界变迁

保持特征的点云模型去噪算法研究

在教育游戏、虚拟教学系统中,尽可能真实的虚拟场景可以增强学习者的学习兴趣,从而促进教学效果。真实的虚拟场景需要大量具有真实感的数字化三维模型。但是单纯通过3D软件人

学位

点云模型点云去噪保持特征点云法向各向异性高斯混合模型

基于改进的随机森林算法的结核病易感基因挑选研究

与本文相关的学术论文