决策树膜型在冠心病全基因组关联研究中的应用

来源 :复旦大学 | 被引量 : 0次 | 上传用户:dusl520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
冠心病是一类由遗传与环境因素相互作用引起的复杂疾病,是世界范围内死亡和致残的一个重要原因。对冠心病的全基因组关联研究是近年来的研究热点。  以往的冠心病全基因组关联研究大多采用一些经典的统计方法。然而,由于全基因组数据量大,自变量远多于观测数,使得经典方法往往不适用。  本文分析的是来源于WTCCC的冠心病数据,包含了4864名被试者的393474个基因位点的信息和被试者是否患病的0-1变量。其中有1926例冠心病病例和2938名对照,冠心病病例占总观测40%左右。每个位点有三种单核甘酸形态,为无序属性变量。采用决策树方法来分析这批数据对冠心病GWAS的两类问题,一是寻找与冠心病相关联的易感位点,二是预测是否患病。决策树对于这类问题的分析有不少的优点,它是一种非参数方法,所作的先验假设较少;易于处理离散型的数据;自变量之间的相关对建模及预测的影响不大。我们查阅了GWAS的有关文献,未找到使用决策树模型的文献。  针对WTCCC的冠心病数据,本文使用决策树模型挑选出了5个与冠心病相关联的易感位点(自变量),使用多种评估方法得到的准确率都稳定在74%左右,这比已有文献报导的预测准确率要高。
其他文献
本文研究了与Schrodinger算子相关的Littlewood-Paley算子和非交换背景下的不确定性原理.在第一部分本文研究了下面的内容:首先,研究了与Schrodinger算子相关的Hardy型空间和BM
学位
本文主要采用新的证明方法研究了以下几类具有一定的生物背景或实际意义的神经网络模型的周期解存在性、稳定性,并得到了一系列新的结果。 本论文的结构如下。 第一章,应
带耗散机制的非线性双曲方程是一类重要的发展方程,在数学、物理及其它许多领域中都扮演着重要的角色.本文考虑了两类带不同耗散机制的非线性双曲方程,一类是带非线性对流项
本文主要讨论能量既依赖于位势又依赖于速度的三阶特征值问题:此处公式省略。及其所对应的Bargm ann系统.  首先简单的介绍了一些基本的概念,然后通过引进双Hamilto n算子K,J
学位
风险测度是一个广义的概念,它可以用不同的测量方式表达。20世纪90年代发展起来的风险价值(VaR)方法就是一种衡量风险的新测量方法。它是金融史上风险可量化的一个重要标志,它
近年来,随着国民经济的飞速发展,一维下料问题在建筑、电力、水利等领域获得了越来越广泛的应用。寻找一种最优的下料方案,不仅可以节省原材料,降低生产成本,而且能够为企业带来直
学位
矩阵广义逆和算子广义逆在理论和应用方面都有十分重要的地位,因此也就得到了许多学者的关注。现在由于非交换微分几何的发展,人们需要对Fredholm模的陈指标进行深入的研究,比如
众所周知,扩散和时滞现象在事物的演化过程中往往是不可避免的,因此时滞反应扩散方程引起了众多学者的关注,其中最关注的就是行波解的存在性问题.然而,自上个世纪九十年代以来,人