论文部分内容阅读
当前普遍认为,遗传因素在人类复杂疾病的发病机制中扮演着非常重要的角色。从2005年至今,全基因组关联研究(genome-wide association study, GWAS)已经被证明是复杂疾病遗传易感性的主要研究手段之一。然而,就目前GWAS已经识别的具有主效应的单核苷酸多态性(single nucleotide polymorphisms, SNP)仅能解释小部分的遗传变异,越来越多的证据都提示了忽视基因-基因交互作用可能是主要原因之一。基因-基因交互作用又称上位效应,是指某一个位点的效应在其余位点的不同水平上表现出不同或者不全相同。由于GWAS所涉及的变量数众多,若采用传统的交互作用分析方法,检验次数很大,经多重校正后的检验水准会过于严格,导致检验效能很低。近来,一个名为蚂蚁算法的优化理论在检测基因-基因交互作用方面展现了其巨大的潜力。本文针对基础的蚂蚁算法进行了改进,提出AntTrailer算法,旨在探讨其在检测基因-基因交互作用中的优势。本研究利用模拟试验,针对病例-对照研究中的高维数据,比较AntTrailer和AntEpiSeeker这两种方法在检测基因-基因交互作用中的统计学性质,并将这两种方法应用到中国人群肺癌GWAS的metPathway通路的实际数据中检测基因-基因交互作用。研究内容包括模拟试验和实例分析两个方面:1.基于虚拟结构的模拟:设定SNPs间的连锁不平衡(linkage disequilibrium,LD)结构、最小等位基因频率(minor allele frequency, MAF)以及交互作用效应的比值比(odds ratio, OR),产生所需的模拟数据。基于实际结构的模拟:先基于HapMap网站上的西北欧洲后裔人群的单倍型信息来设定SNP位点间的LD结构和MAF,然后,设定位点的主效应的OR、位点与位点的交互作用效应的OR,产生所需的模拟数据,分别应用AntTrailer和AntEpiSeeker这两种方法进行交互作用的检验。2.实例分析:利用中国人群肺癌GWAS的metPathway通路的实际数据,比较此两种方法在检测交互作用中的能力。采用两阶段的分析策略,将南京人群作为初筛,将北京人群作为验证。在初筛阶段,分别应用上述的两种方法挑出潜在的交互作用对;在验证阶段,利用传统的logistic回归进行检验。本研究的主要结果是:1.基于虚拟结构的模拟结果:AntTrailer算法可以控制第一类错误,而AntEpiSeeker算法的第一类错误明显膨胀,并且当位点有主效应时,第一类错误膨胀更严重。事实上,AntEpiSeeker算法检出的是联合作用,而并非交互作用。位点的MAF增加,两种方法的检验效能均增加。位点间LD强度增加时,两种方法的检验效能均有不同程度的降低。2.基于实际结构的模拟结果:结果与基于虚拟结构的模拟结果一致。AntTrailer算法基本可以控制第一类错误,而AntEpiSeeker算法的第一类错误明显膨胀,并且随着位点主效应的增大,第一类错误膨胀更严重。随着交互作用效应的增大,两种方法的检验效能均增加。AntEpiSeeker算法的检验效能对位点的主效应很敏感,而AntTrailer算法具有一定的稳健性。3.实例分析结果:在中国人群肺癌GWAS的metPathway通路的实际资料中,将南京人群作为初筛,北京人群作为验证,AntTrailer算法共计挑选出10对潜在的一阶交互作用,其中2对交互作用通过验证,而AntEpiSeeker算法筛选出的潜在交互作用对均无法通过验证。结论模拟试验和实例分析均表明:改进的蚂蚁算法AntTrailer可以用于检测基因-基因交互作用,其总体表现优于AntEpiSeeker算法。