基于随机森林模型的基因谱表达数据分析方法的研究

来源 :哈尔滨医科大学 | 被引量 : 0次 | 上传用户:bb1206
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
【目的】微阵列数据是指由基因芯片获得的基因表达数据。对基因表达数据的分析,其重要任务是筛选差异表达基因及对样品进行分类,通过比较正常和疾病状态下基因转录及其表达的差异,研究疾病的发生机理、疾病的早期诊断及治疗;而对基因或样品进行分类,可以将功能相似、具有共调控的不同的组织分型聚在一起,帮助我们根据已知基因发现和识别有意义的未知基因。对基因表达数据分析的主要困难是相对于给定的样品数目,基因的数量过于庞大,用传统的统计方法对“差异基因”进行鉴别会产生大量的假阳性结果。本项研究针对这一问题,对目前比较公认的较好的基因表达数据分析方法即随机森林进行了充分的研究,并在此基础上给出了新的统计学方法。   【内容】①随机森林方法的原理、适用性及特点,研究其在基因表达数据分类、差异基因筛选中的性能,并通过模拟实验加以验证;②基于随机森林方法给出了随机森林逐步判别算法,通过基因表达数据和模拟数据的分析考核其性能,在分类和基因筛选性能上分别与随机森林方法和基于单基因筛选原理的SAM法进行对比;③随机森林逐步判别法的软件包编辑和实现。其中随机森林逐步判别法是本文提出的一种新方法,其本质是利用随机森林自身能够对基因的重要性进行排序的特点,结合有监督分类的AUC值进行动态基因筛选,有效地提高判别分类效果,筛选出差异表达基因。④研究随机森林多元非线性回归模型的特点及适应性,将其应用于基因关联性分析的研究。   【方法】根据基因表达谱分子生物信息的特点,采用统计学和计算机相结合的技术,利用公开的生物信息数据库,选择具有典型意义的样本数据,通过对实际样本的分析,提取数据的分布及相关特征,建立相应的统计分析模型;同时用计算机模拟的方法,利用R和SAS两种语言开发以计算和模拟实验用为主的程序并编辑程序包,针对不同类型的数据进行分析和评价,探索基因表达数据分析的新方法。   【结果】主要研究结果如下:   (1)模拟实验证实了随机森林组合分类器方法的有效性。虽然随机森林模型判别能力随无差异变量数目的增加而下降,但下降的程度与单变量的分类能力有关;在利用基因表达数据建立分类模型时,只要存在差异大的基因,无论有多少无差异的基因,都不会影响其建模和判别性能明显下降。   (2)本文提出一种随机森林逐步判别方法,通过改进算法寻找最可能对分类有作用的变量,建立“最优”随机森林模型。模拟实验结果表明,在类间区分度较大的情况下(如ROC曲线下面积O≥0.95),随机森林逐步判别分析的效果非常明显。对四种疾病的基因表达数据分析结果也表明用少量的基因就能够获得很好的判别效果。   (3)对于变量筛选,模拟实验结果表明:在设置很少几个差异变量的情况下(p=5),在两类区分度较低时(0=0.85),筛选变量的结果不够理想;但在区分度较高的情况下,正确地将差异变量纳入模型的百分率明显提高,而且绝大多数选入模型的变量其重要性的排序都较为靠前,结果非常理想。   (4)本研究对四个实际数据,即白血病、乳腺癌、皮肤癌、和结肠炎基因表达数据进行了分析,并从生物学角度对筛选出的基因进行了解释,结果提示利用本文给出的随机森林逐步筛选变量法可以有效的选入与疾病有关的基因。研究发现,筛选出的基因有一部分与该疾病有着直接关系,为进一步的基因功能学研究提供了重要的线索。   (5)在与SAM法的比较研究中,当保留相同的差异基因数目时,两者相同的差异基因数目很少,但随机森林逐步判别法筛选出差异基因的判别分类效果却更好。模拟实验证实,两组间变异相差较大时,随机森林逐步判别法能够显示出更优良的特性。   (6)在对于基因的相关分析中,模拟实验结果显示:当数据为理想的线性关系时,随机森林多元非线性回归模型的效果略低于线性回归模型:但当数据为非线性关系时,随机森林多元非线性回归模型仍能获得理想的数据分析效果,结果提示随机森林更适应用于复杂的基因表达数据分析。   【结论】基于随机森林构造的模型,可以有效地应用于基因表达数据的判别分类、基因筛选和基因关联研究,与目前使用的其他方法相比,对于具有复杂结构基因表达数据,随机森林模型及方法有其明显的自身特点,适用性更强,是一种值得推荐和进一步研究的模型。
其他文献
目的: 研究维生素E琥珀酸酯(vitamin E succinate,VES)诱导人胃癌SGC-7901细胞凋亡中线粒体下游的信号通路及Bid在细胞凋亡中的作用。 方法: 在VES诱导SGC-7901细胞凋亡过
洪川大师是日本江户时代的著名禅师和书法家。有一年,日本江户城建造了一座京碧寺,寺庙落成后,当时的最高统帅德川家康就派人请洪川大师来为京碧寺书写“第一议谛”四个字。
期刊
摘要:培养青少年思想道德情操是思想政治课教学的出发点和落脚点,创新课堂教学模式是每一位思想品德课教师必须实践与探究的教学课题。如何正确认识思想品德课等诸多问题已成为我们广大一线教师迫切需要解决的问题。在教学实践中,我积极探索趣味性教学的方法,千方百计提高学生课堂的积极性,培养学科兴趣。几年来,所任学科教学成绩突出,积累的教学经验和探究的教学模式已于2014年6月通过省立项结题。概要有以下几方面。 
摘要:免费医学生作为我国医疗卫生事业的后备军,其思想政治水平的高低将直接影响我国整体医疗卫生队伍的思想政治水平。笔者结合多年在民族地区医学院校从事学生思想政治教育工作的体味,分析免费医学生主要存在的突出问题,提出主要从“两课”课堂教学、提升职业素质、开展基层社会实践活动、加强心理健康教育四个方面做好民族地区医学院校免费医学生思想政治教育工作。  关键词:免费医学生;思想政治教育  【中图分类号】G
食品安全引起政府和民众的广泛关注。为获得黑龙江省动植物食品中常见农药和兽药的污染情况,本研究调查了主要动、植物食品产地的农药和兽药使用情况;检测哈尔滨市售动植物性食
教学策略是保证教学有效性的重要因素.通常我们所说的“放”与“收”,指的就是教学策略问题.所谓“放”,说的是充分发挥学生的主体性,让学生在学习中放开眼睛去看,放开手脚去
摘要:中职学生法制教育开展近30年来取得了一定进展,但随着社会的变革,中职学生的法制观念受到了很大冲击,这给中职学生法制教育提出了新的挑战。笔者经实践研究总结出中职学生法制教育的几点对策:从优化教学内容、有效利用实践活动、实现校园法制化管理这三个方面加强中职学校的法制教育建设;重视中职学生的家庭教育;净化中职学生法制教育的外部环境。  关键词:中职学生,法制教育,对策  中图分类号:G455  随
苏霍姆林斯基曾说:“教师必须懂得什么该讲,什么该留着不讲,不该讲的东西,就好比是学生思维的引爆器,马上使学生在思维中出现问题。”在教学时,教师若能巧妙地“留白”,必定极大地激起学生的求知欲和学习热情,让学生的思维得到开拓,想象力得到发挥,同时也活跃了课堂气氛,创造出师生互动的和谐课堂。  例如,在教学“探究压力的作用效果”时,如果教师凭空就问:”压力的作用效果与哪些因素有关?”势必造成问题情境的一
邻苯二甲酸二丁酯(DBP)是环境中常见的邻苯二甲酸酯类化合物的一种,被广泛应用于工业生产中,如塑料管、紫胶漆、制药业和食品塑料包装材料等,因此在环境中普遍存在。各国监测
建设社会主义新农村,核心在班子,关键在队伍。建立健全保持农村基层党组织先进性建设的长效机制,是全面提升农村基层组织的创造力、凝聚力和战斗力的关键之举,也是为社会主义