基于遗传模型和随机森林选取致病SNPs方法的研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:qq251775522
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类基因组计划的完成和高通量测序技术的发展,特别是其可以芯片化,这使全基因组关联分析变得成为可能。而在全基因组关联分析中,研究单核苷酸的多态性(single nucleotide polymorphisms,SNPs),即疾病的致病位点 SNPs 是一个十分吸引人和有前景的问题。如果在生物实验前就可以大致确定致病基因位点SNPs,这对实验进行指导的同时也能极大的节省成本。在研究致病位点SNPs的全基因组关联分析中,全基因组数据具有以下两个重要的特征:大量噪音、高维特征。复杂疾病一般是由多个致病基因位点相互作用引起的,这就对只能研究单个疾病位点与疾病关系的传统统计学方法提出了挑战。随机森林模型以处理高维数据和选择重要特征变量而闻名,这使得其对生物信息研究者很有吸引力。但由于全基因组数据维数高达上万维,即使是随机森林模型也难以从如此大量噪音数据中寻找到致病基因位点SNPs。本文基于复杂疾病是由少量致病基因位点SNPs相互作用引起的和全基因组数据是有大量噪音的高维数据这两个基本前提,提出了基于遗传模型和随机森林的致病位点选取方法。考虑随机森林难以在上万维噪音的全基因组数据中选取特征,故本文提出第一步利用是用显性(Dominant)、隐性(Recessive)、共显性(Co-Dominant)、超显性(Over-Domirnant)遗传模型筛选数据集,结果显示绝大部分都是与疾病无关,去除了大量的噪音数据。第二步考察了用随机森林模型在筛选后的数据集中选取致病基因位点SNPs。在这一部分中,我们比较了随机森林在原始数据集和去除噪音数据集上的不同表现,结果显示随机森林在筛选后数据集上的预测率提高了 30%。之后我们又比较了不同参数设定情况下随机森林模型与SVM、GBDT、NB、KNN预测能力差别,结果显示随机森林是这些模型中效果最好的,但同时又是相对复杂度不高的算法。另外随机森林具有的并行化和选择重要变量的特性也是其他模型所不具备。因此,随机森林模型在全基因组数据中选取致病基因位点是有巨大优势的。最后我们设计了一个利用随机森林稳定选取致病基因位点SNPs算法。第三步为了验证基于遗传模型和随机森林方法选取的致病基因位点SNPs的正确性,本文用logistic回归模型对选取的致病基因位点进行了验证,最终证明了所选取的致病基因位点SNPs是具有交互作用的。
其他文献
在电子不停车收费系统中,自动车辆识别技术是收费系统的核心部分.文中讲述了自动车辆识别的实现过程,并利用VxD技术实现Win98下的硬件中断,以满足不停车收费系统对实时性的要
可靠性是高功率半导体激光器(HLD)的一个重要性能。热加速寿命试验是HLD寿命评价和可靠性分析的重要技术。在本文中,我们在高温测试平台上对铟焊料封装的18个中心波长为808 n
“三背回填”是公路工程的重要组成部分,出现错台、沉降、结构物位移等现象,直接影响到公路路基的稳定性,影响车辆行驶的安全度和舒适度,对此,在公路设计、施工和质量检测方
计划生育对妇女地位的影响有正负两个方面,本文先从《中华人民共和国人口与计划生育法》、"婚育新风进万家"活动、计划生育优质服务、奖励扶助制度、经济扶持等五方面对计划
目前,我国养殖业正跨人规模化、集约化、标准化的发展时期,动物养殖数量呈几何数字快速增长,畜牧业已成为农业经济发展的重要支柱和阳光产业、保障民生的基础产业。然而,随着养殖
通过将茶融入和应用到具体的社会生活中,从而形成了具有独立文化体系内涵的茶文化.当然,茶的价值和作用,不仅在于其中所具有的文化理念和内涵,更重要的是其中具备了相应的生
房地产业资产证券化是把流动性较低的、非证券形态的房地产投资转化为资本市场上的证券资产的金融交易,从而使得投资者与投资对象之间的关系由直接的物权拥有,转化为债权拥有的
配电"一张网"的管理,需要消除配网信息壁垒、共享企业数据资源。国网扬州供电公司基于企业级电网空间信息平台(GIS)构建了分层多维度的供电逻辑,实现了配网所有设备信息及关
血液系统疾病合并脑血管疾病是一大治疗难点,尤其是血小板减少的患者一旦出现脑出血等常危及生命。同时,临床中也有部分关于特发性血小板减少性紫癜(idiopathic thrombocytope
生物特征识别技术是21世纪新兴的一种身份认证技术,具有很好的研究价值和广阔的应用领域。其中,手部静脉识别因其非触摸、不易仿造、活体识别、高安全性和简单易用等优势具有