论文部分内容阅读
背景:全转录组关联研究(transcriptome-wide association study,TWAS)旨在整合全基因组关联研究(genome-wide association study,GWAS)和表达数量性状位点(expression quantitative trait loci,eQTL)研究的关联结果,以探讨基因表达与复杂性状之间的关系。随着大量汇总数据(summary data)的公开发布,基于汇总数据的TWAS分析方法越来越受到重视。然而,基于汇总数据的TWAS分析方法需借助外部参考面板数据对GWAS样本人群的连锁不平衡矩阵(linkage disequilibrium matrix,LD matrix)进行估计。由于人群不匹配引入统计噪声、LD参考面板样本量小估计精度不够、矩阵不可逆等诸多问题,给基于汇总数据的TWAS分析带来了挑战。针对这些问题,当前TWAS分析首先从LD参考面板数据中计算得到LD matrix,进而对该矩阵进行正则化或近似,以保证其数值稳定性。当前尚未有研究系统评价与比较不同LD matrix估计方法在TWAS分析中的表现。目的:使用基于汇总数据的TWAS分析方法,依托千人基因组(1000 Genomes Project)参考面板,系统评价来自千人基因组的LD matrix以及使用不同LD matrix正则化方法对TWAS统计推断的影响,以期指导基于汇总数据TWAS分析中LD matrix估计方法的选择,确保TWAS分析的科学性和合理性。方法:基于当前针对汇总数据的5种常用TWAS分析方法,包括PrediXcan、TWAS、DPR、LDA MR-Egger和PMR-Egger,使用四种不同的LD matrix估计方法:①由千人基因组数据计算得出的经验相关矩阵Σref;②ΣA=λΣref+(1-λ)I;③ΣB=Σref+λI;④(?);其中,λ为压缩参数,I为单位矩阵。通过基于实际数据的统计模拟实验与实例分析,评价不同LD matrix估计方法对基于汇总数据的TWAS方法统计推断的影响。本研究所使用的数据均来自于公共数据库,其中,基因表达数据集来自GEUVADIS研究,GWAS数据集来自UK Biobank,LD参考面板数据来自千人基因组,均来源于欧洲人群。1.统计模拟实验时,使用上述三个数据集,随机选择10,000个基因,以基因顺式区域内所有遗传变异位点作为其顺式SNPs(cis-SNPs),使用真实基因型数据模拟生成基因表达数据和表型数据,根据TWAS分析流程,将来自千人基因组及通过三种不同方法估计的 LD matrix 分别代入 PrediXcan、TWAS、DPR、LDA MR-Egger 和 PMR-Egger五种TWAS分析方法中,并与使用由GWAS样本个体基因型数据计算得到的金标准LD matrix时进行比较,分别在不同基因表达遗传度、不同基因表达遗传结构(稀疏效应假定或多基因效应假定)、是否存在水平多效性、是否存在因果效应等模拟情形下,全面考察因果效应和水平多效性效应的一类错误和检验效能,通过模拟实验评价不同LD matrix估计方法对TWAS统计推断的影响。2.实际数据TWAS分析使用UK Biobank中血脂四项的GWAS数据,包括总胆固醇(total cholesterol,TC)、高密度脂蛋白胆固醇(high density lipoprotein cholesterol,HDL)、低密度脂蛋白胆固醇(lowdensitylipoproteincholesterol,LDL)和甘油三酯(triglyceride,TG)。考虑基于不同建模假设的TWAS方法在捕获潜在基因表达遗传结构特征方面性能不同,针对不同TWAS方法使用不同LD matrix估计方法时识别出的所有与特定血脂性状相关的基因,使用Metascape进行GO和KEGG富集分析,以识别与血脂性状相关基因富集的生物学通路,检验分析结果的合理性和稳健性。结果:1.统计模拟实验中,对于PrediXcan、TWAS、DPR这三种基于传统两阶段分析策略的TWAS方法,在不存在水平多效性且满足多基因效应假定时表现较好。与使用金标准LD matrix相比,使用Σref、ΣA、ΣB、ΣC四种不同LD matrix估计方法时,这三种方法均能控制因果效应检验的一类错误,且检验效能相当。特别地,使用ΣA和ΣC时,这三种方法的一类错误随着压缩参数所表征的压缩程度增大而逐渐膨胀,使用ΣB时,其随着参数λ增大而趋于保守,但未观察到检验效能随参数λ变化的明显趋势。当存在较大水平多效性时,无论使用金标准LD matrix还是四种不同LDmatrix估计方法,这三种方法检验因果效应的一类错误均明显膨胀,并且检验效能较低。与使用金标准LD matrix相比,使用Σref、ΣA、ΣB、ΣC时,LDAMR-Egger和PMR-Egger检验因果效应及检验水平多效性的一类错误均出现膨胀趋势。对于LDAMR-Egger,在因果效应检验的一类错误控制上,使用ΣC使用ΣA和ΣB膨胀更明显,相反地,在水平多效性效应检验的一类错误上,使用ΣA和ΣB比使用ΣC膨胀更明显。LDAMR-Egger检验因果效应及水平多效性的检验效能均较低,未观察到其检验效能随参数λ变化的明显趋势。对于PMR-Egger,使用ΣC与使用Σref相比,一类错误膨胀趋势有所缓解,而使用ΣA、ΣB、ΣC时其检验因果效应的一类错误均随着参数λ所表征的压缩程度增大而膨胀;使用ΣC时,PMR-Egger对因果效应和水平多效性的检验效能相对稳定。2.血脂四项性状的TWAS实际数据分析中,不同TWAS方法在使用不同LD matrix估计策略时,共识别出320、486、266、419个分别与TC、HDL、LDL、TG显著相关的基因,富集分析结果显示,这些基因均显著富集在与血脂代谢明显相关的GO及KEGG通路上(如胆固醇运输、胆固醇代谢过程),此外,与先前研究一致,与TG相关的基因在神经退行性疾病通路上也呈现出显著富集,从一定程度上说明了不同TWAS分析方法在使用不同LD matrix估计下的分析结果的稳健性。结论:使用来自千人基因组以及不同LD matrix估计的正则化方法时,对于基于汇总数据的不同TWAS统计方法的影响各有不同,并且该影响趋势与不同TWAS分析方法原理、不同LD matrix估计方法的特点、以及不同模拟情形设置等密切相关。1.传统两阶段的TWAS分析方法PrediXcan、TWAS及DPR将LD matrix用于第二阶段构建基因-性状间关系的检验统计量,且不涉及矩阵求逆等运算,因此,使用不同LD matrix估计方法时,对于TWAS统计推断的影响较小,直接使用来自千人基因组的LD matrix时也具有良好的表现,但是当存在水平多效性效应或违背多基因效应假定时,应注意控制这三种方法的假阳性发现。2.LDA MR-Egger和PMR-Egger方法均考虑了生物学中广泛存在的水平多效性效应,增加了统计推断的复杂性,这决定了二者在使用汇总数据进行推断时,需要将LD matrix用于其推断中的多个步骤。由于LD参考面板数据样本量较小,致使估计精度不够,并且矩阵求逆等运算会加剧其数值不稳定性,来自千人基因组面板数据的LD matrix与GWAS样本人群的LD结构间存在的潜在差异也可能被随之放大,从而对TWAS统计推断造成较大的影响。对于这两种能够同时估计并检验因果效应及水平多效性效应的方法,综合来看,PMR-Egger方法表现更好,但应注意控制假阳性。3.基于血脂四项的TWAS实际数据分析发现,不同TWAS方法使用不同LD matrix时识别出的与血脂相关的显著基因均在其相关生物学通路上具有良好的富集,提示基于不同建模假设的TWAS方法在实际数据分析时可相互补充,提供良好的生物学信息。