论文部分内容阅读
全基因组关联分析(Genome-wide association studies,GWAS)是遗传研究中的重要方法。人群分层是GWAS中一个已知的混杂因素,病例对照研究中如果存在人群分层会导致假阳性或假阴性的结果,因此人群分层分析是GWAS中的重要内容之一。大量的已有测序数据表明,许多罕见变异是人群特有的,因此有可能会更好的用来区分样本的人群结构。主成分分析(Principal component analysis,PCA)方法在使用常见变异来分析人群结构中得到了广泛的应用,当使用罕见变异来区分人群结构时,这种方法是否有效仍存在争议。本文中研究基于PCA的人群分层方法,阐述了从基因型数据得到遗传关系矩阵(Genetic relationship matrix,GRM)的过程。本文推导了GRM的数学期望,得到期望关系矩阵(Expected genetic relationship matrix,EGRM),EGRM中的方差和协方差元素取决于PCA中使用的遗传标记的最小等位基因频率(Minor allele frequency,MAF)。根据本文的理论推导,随着单核苷酸多态性(Single nucleotide polymorphism,SNP)的MAF越来越小,EGRM中的人群内协方差和人群间协方差元素均减小,对人群结构的区分能力会降低。接下来我们用千人基因组数据,进行了GRM的PCA,对分析结果使用R语言进行了图形绘制得到了人群散点的图形。数据分析结果可知:当使用MAF在0.4和0.5之间的常见变异时前五个最大主成分(Principal component,PC)解释的方差百分比为17.09%,而MAF为0.0001到0.01的罕见变异时该值只有0.74%;其次,罕见变异下人群散点图形呈现了与常见变异和低频率变异不同的人群结构,但仅从区分人群来说,罕见变异有效性不如常见变异和低频率变异。对EGRM求解特征值的理论分析发现,人群间差异信息包含在K个PCs,主要包含在最大的K-1个PC中,其中K是样本中的人群数。当MAF变小时,K个PC中的人群间方差与人群内方差的比率减弱,不利于区分人群。根据EGRM的结构,计算得到人群代表点之间的距离,当使用罕见SNPs时人群距离会变小。因此,理论推断人群分层的PCA在罕见变异中的表现比常见变异差。使用千人基因组数据进行验证。验证结果表明,MAF在0.4到0.5的范围的常见变异时,人群间方差和人群内方差的比率与人群距离分别为93.85和444.38;而MAF为0.0001与0.01间的罕见变异时,这两个值为1.83,和17.83。虽然使用罕见SNPs的PCA结果揭示了与常见SNPs不同的人群结构,但从理论推导和数据分析结果来看,现有PCA方法无法有效地利用罕见变异包含的丰富的遗传信息。