论文部分内容阅读
全基因组关联研究(Genome-Wide Association Studies,GWAS)在识别与人类复杂遗传疾病相关的遗传变异中起着非常重要的作用。标准的病例-对照GWAS分析了单个单核苷酸多态性(Single Nucleotide Polymorphism,SNP)和疾病风险之间的关联。然而,这种方法受到有限的再生性和上位性效应的限制,且单个SNP分析方法的功效较低。从SNP层面上来看,基因组也是一个大系统,SNP与SNP间存在复杂的关联关系,直接对SNP集进行检验忽略了SNP之间的相关性。本文考虑SNP间的相关性,提出基于网络的SNP聚类方法和P值的校正方法,比较了基于网络SNP聚类和基于基因SNP聚类方法的Logistic核检验的功效。具体内容如下: 利用复杂互信息网络来刻画SNP与SNP间的复杂关系。对一个基因上所有SNPs形成的复杂加权网络,利用适用于无向加权网络聚类的改进Newman聚类方法对SNP进行聚类,形成k个SNP集。对每个SNP集,计算Logistic核检验的P值,取最小的P值并对其进行校正,得到基于网络SNP聚类的Logistic核检验的最终P值。基于国际Hapmap项目提供的信息,利用软件HAPGEN2产生大量仿真数据,比较了基于网络SNP聚类和基于基因SNP聚类的Logistic核检验的功效。 大量的仿真实验表明:基于网络SNP聚类和基于基因SNP聚类的Logistic核检验都能控制第一类错误率。当基因的连锁不平衡(linkage disequilibrium,LD)图中显示SNP之间连锁不平衡中度偏高时,基于网络SNP聚类和基于基因SNP聚类的Logistic核检验在选择线性核函数时的功效都很高,且这两种方法各有优势。选择加权线性核函数时,基于网络SNP聚类的Logistic核检验的功效大。当基因LD图中显示SNP之间连锁不平衡偏低且选择线性核函数时,基于网络SNP聚类的Logistic核检验的功效大;若选择加权线性核函数时,我们方法的检验功效普遍比基于基因SNP聚类的Logistic核检验的功效大。因为加权线性核函数是线性核函数对罕见等位基因的相似性权重的推广,突出了罕见变异的重要性。