论文部分内容阅读
【目的】微阵列数据是指由基因芯片获得的基因表达数据。对基因表达数据的分析,其重要任务是筛选差异表达基因及对样品进行分类,通过比较正常和疾病状态下基因转录及其表达的差异,研究疾病的发生机理、疾病的早期诊断及治疗;而对基因或样品进行分类,可以将功能相似、具有共调控的不同的组织分型聚在一起,帮助我们根据已知基因发现和识别有意义的未知基因。对基因表达数据分析的主要困难是相对于给定的样品数目,基因的数量过于庞大,用传统的统计方法对“差异基因”进行鉴别会产生大量的假阳性结果。本项研究针对这一问题,对目前比较公认的较好的基因表达数据分析方法即随机森林进行了充分的研究,并在此基础上给出了新的统计学方法。
【内容】①随机森林方法的原理、适用性及特点,研究其在基因表达数据分类、差异基因筛选中的性能,并通过模拟实验加以验证;②基于随机森林方法给出了随机森林逐步判别算法,通过基因表达数据和模拟数据的分析考核其性能,在分类和基因筛选性能上分别与随机森林方法和基于单基因筛选原理的SAM法进行对比;③随机森林逐步判别法的软件包编辑和实现。其中随机森林逐步判别法是本文提出的一种新方法,其本质是利用随机森林自身能够对基因的重要性进行排序的特点,结合有监督分类的AUC值进行动态基因筛选,有效地提高判别分类效果,筛选出差异表达基因。④研究随机森林多元非线性回归模型的特点及适应性,将其应用于基因关联性分析的研究。
【方法】根据基因表达谱分子生物信息的特点,采用统计学和计算机相结合的技术,利用公开的生物信息数据库,选择具有典型意义的样本数据,通过对实际样本的分析,提取数据的分布及相关特征,建立相应的统计分析模型;同时用计算机模拟的方法,利用R和SAS两种语言开发以计算和模拟实验用为主的程序并编辑程序包,针对不同类型的数据进行分析和评价,探索基因表达数据分析的新方法。
【结果】主要研究结果如下:
(1)模拟实验证实了随机森林组合分类器方法的有效性。虽然随机森林模型判别能力随无差异变量数目的增加而下降,但下降的程度与单变量的分类能力有关;在利用基因表达数据建立分类模型时,只要存在差异大的基因,无论有多少无差异的基因,都不会影响其建模和判别性能明显下降。
(2)本文提出一种随机森林逐步判别方法,通过改进算法寻找最可能对分类有作用的变量,建立“最优”随机森林模型。模拟实验结果表明,在类间区分度较大的情况下(如ROC曲线下面积O≥0.95),随机森林逐步判别分析的效果非常明显。对四种疾病的基因表达数据分析结果也表明用少量的基因就能够获得很好的判别效果。
(3)对于变量筛选,模拟实验结果表明:在设置很少几个差异变量的情况下(p=5),在两类区分度较低时(0=0.85),筛选变量的结果不够理想;但在区分度较高的情况下,正确地将差异变量纳入模型的百分率明显提高,而且绝大多数选入模型的变量其重要性的排序都较为靠前,结果非常理想。
(4)本研究对四个实际数据,即白血病、乳腺癌、皮肤癌、和结肠炎基因表达数据进行了分析,并从生物学角度对筛选出的基因进行了解释,结果提示利用本文给出的随机森林逐步筛选变量法可以有效的选入与疾病有关的基因。研究发现,筛选出的基因有一部分与该疾病有着直接关系,为进一步的基因功能学研究提供了重要的线索。
(5)在与SAM法的比较研究中,当保留相同的差异基因数目时,两者相同的差异基因数目很少,但随机森林逐步判别法筛选出差异基因的判别分类效果却更好。模拟实验证实,两组间变异相差较大时,随机森林逐步判别法能够显示出更优良的特性。
(6)在对于基因的相关分析中,模拟实验结果显示:当数据为理想的线性关系时,随机森林多元非线性回归模型的效果略低于线性回归模型:但当数据为非线性关系时,随机森林多元非线性回归模型仍能获得理想的数据分析效果,结果提示随机森林更适应用于复杂的基因表达数据分析。
【结论】基于随机森林构造的模型,可以有效地应用于基因表达数据的判别分类、基因筛选和基因关联研究,与目前使用的其他方法相比,对于具有复杂结构基因表达数据,随机森林模型及方法有其明显的自身特点,适用性更强,是一种值得推荐和进一步研究的模型。