论文部分内容阅读
本文旨在改进随机森林算法来筛选特征基因,希望找出较少的差异基因从而有助于病情的分析,但是人类的基因数量庞大,想要针对某一疾病快速找出差异基因是一件不容易的事情。随机森林可以计算出每个特征基因对分类的重要性,而且也适用于处理大量数据,所以研究使用随机森林算法对特征基因进行筛选。随机森林在建立决策树时对样本和特征选择具有随机性,其计算出的特征重要性会受到噪声的影响,甚至可能出现比较重要的特征基因被噪声淹没的现象。为了减少噪声对筛选结果的不良影响,根据随机森林结合多元统计中的向后剔除法思想的基础上再改进算法,将原改进中没有标准的参数进一步的标准化。主要通过结合K折交叉验证和随机森林模型的建立,每一次产生新的训练样本都会建立随机森林模型,并计算其准确率,在这过程中引入误差增量作为阈值,利用该阈值来判断是否停止交叉验证建立随机森林模型。若误差增量超过指定参数则停止迭代,选择准确率最高的随机森林模型来计算基因重要性,将基因的重要性值从大到小依次排列,然后剔除末尾一定比例的特征基因,剩下的基因数据重复以上步骤进行K折交叉验证建立随机森林模型,一直循环重复筛选直到剩下所需的特征基因数量。为了对比改进随机森林算法的优势,同时使用简单随机森林算法和传统特征筛选算法对基因数据进行筛选分析,最后利用支持向量机对三种算法筛选的差异基因进行判别分析。经过对结核病基因数据的实证研究,本文主要结论如下:1、特征筛选部分,分别使用传统特征筛选方法,随机森林算法,改进随机森林算法对原始数据中的8068个基因特征筛选,并且对比分析三种算法筛选的前20个基因,发现筛选出来的基因以及基因表达量差异较大,说明这三种算法存在较大的差异。2、判别分类部分,主要采用支持向量机,分别利用传统特征筛选算法、随机森林算法、改进随机森林算法筛选的特征基因对检验样本进行判别分类。计算其分类准确率,结果显示:改进随机森林算法筛选的前13个基因对检验样本进行分类时,分类准确率达到了90%,准确率明显高于简单随机森林算法和传统特征筛选算法。3、在随机森林加入多元统计的向后剔除法的基础上进一步改进随机森林算法,弥补了之前算法的一些缺陷,结合算法筛选出来的特征基因对比分析与支持向量机的判别结果,改进随机森林算法不仅提高了分类准确率还能缩小特征集合,该算法在基因挑选过程中具有较大优势。