论文部分内容阅读
全基因组关联研究(genome-wide association study, GWAS)已经成为人类复杂性疾病(complex disease)/可测性状(observable trait)遗传易感性的主要研究策略之一。目前,多位点关联研究的方法应用较多,基于单核苷酸多态性(single nucleotide polymorphism, SNP)集合的分析方法比较常见,比如:核函数法、主成分法、偏最小二乘法以及有监督的主成分法等等。这几种降维方法有其相应的优势和局限,在致病位点的最小等位基因频率(minor allele frequency, MAF)较低的情况下,这些方法的检验效能相对较低,本文在主成分分析的基础上应用加权主成分法(weighted principal component analysis, wPCA),旨在探讨加权方法在低频致病位点时的优势。本研究利用模拟试验,针对病例-对照研究中的高维数据,探讨这四种方法在主效应分析中的统计学性质,以及相应的分析策略,并指导肺癌遗传易感性的关联研究及主效应分析。研究内容包括虚拟数据结构模拟试验、实际数据结构模拟试验和实例分析三个方面:(1)运用自编程序产生不同连锁不平衡(linkage disequilibrium, LD)结构和不同MAF结构的模拟数据,运用基于SNP集合(SNP set)的加权分析方法进行主效应检验,验证这种方法在主效应检测中的作用。(2)基于HapMap网站上的中国北京人群信息,产生模拟数据,再次运用加权分析方法对主效应进行检验,以比较这种方法在主效应检测中的作用。(3)利用高维肺癌病例-对照资料,再次比较加权分析方法检测主效应的能力。本研究的主要结果是:(1)模拟研究分析结果提示:当致病位点的MAF较低、不同LD结构和不同致病位点个数的情况下,加权主成分法和加权核函数(weighted IBS kernel machine, wIBS)法的检验效能高于主成分法和IBS核函数(identical-by-state)法,并且加权主成分法检验效能最高。(2)实例分析结果显示:将IBS核函数方法、wIBS核函数法、主成分法和加权主成分法应用到全基因组关联研究中,结果显示:加权法优于非加权法,而加权主成分法优于加权IBS核函数法。