论文部分内容阅读
冠心病是一类由遗传与环境因素相互作用引起的复杂疾病,是世界范围内死亡和致残的一个重要原因。对冠心病的全基因组关联研究是近年来的研究热点。 以往的冠心病全基因组关联研究大多采用一些经典的统计方法。然而,由于全基因组数据量大,自变量远多于观测数,使得经典方法往往不适用。 本文分析的是来源于WTCCC的冠心病数据,包含了4864名被试者的393474个基因位点的信息和被试者是否患病的0-1变量。其中有1926例冠心病病例和2938名对照,冠心病病例占总观测40%左右。每个位点有三种单核甘酸形态,为无序属性变量。采用决策树方法来分析这批数据对冠心病GWAS的两类问题,一是寻找与冠心病相关联的易感位点,二是预测是否患病。决策树对于这类问题的分析有不少的优点,它是一种非参数方法,所作的先验假设较少;易于处理离散型的数据;自变量之间的相关对建模及预测的影响不大。我们查阅了GWAS的有关文献,未找到使用决策树模型的文献。 针对WTCCC的冠心病数据,本文使用决策树模型挑选出了5个与冠心病相关联的易感位点(自变量),使用多种评估方法得到的准确率都稳定在74%左右,这比已有文献报导的预测准确率要高。