论文部分内容阅读
背景:全基因组关联研究(Genome-wide association studies,GWAS)被广泛应用于揭示复杂疾病及性状的基因结构,至今已有2000多个和疾病相关的常见变异(Common variants,MAF>5%)通过GWASs被识别出来,为疾病机制学研究提供了新的线索。然而这些有关联的常见变异解释常见疾病遗传风险的比例却很低。有学者认为,GWASs之所以不能完全揭示疾病遗传因素的根本问题,并不完全在于研究需要多大的样本量或对现有数据深入分析,还有很大原因是由于常见变异自身对疾病的影响有限。除常见变异外,低频变异(low-frequency variants;0.5%≤MAF<5%)及稀有变异(rare variants,RV;MAF<0.5%)应该能解释相当一部分GWASs研究中的“遗传缺失”(missing heritability),并且已有证据表明低频变异和稀有变异同疾病存在关联。二代测序技术的到来消除了稀有变异检测的技术障碍,可以使疾病发生遗传学机制得到进一步研究,但同时也对统计分析和解释带来了新的挑战,因此迫切需要开发新的统计分析方法和统计分析策略识别出与疾病关联的变异。本研究主要将潜在类别模型应用于分析遗传数据,为复杂性状遗传变异的关联研究提供统计学分析的新思路。方法:本研究数据来自德克萨斯州医学研究中心遗传分析工作组17(Genetic Analysis Workshop 17,GAW17)创建的数据库,该数据库中遗传变异的信息来自697例多种族个体的常见变异和稀有变异的真实数据,并基于遗传变异和假定的表型关联模拟了定量性状和二分类性状,共200个模拟数据集。先将同一基因中的稀有变异集合为一个新变量,再采用基于基因的分析策略比较潜在类别分析和主成份折叠法,在线性模型和logistic模型框架下分析定量性状和二分类性状与基因的关联,并计算两种统计方法的一类错误和统计效能;采用基于通路的分析策略比较潜在类别分析和潜在类别因子分析方法,在线性模型框架下分析定量性状与生物学通路的关联,并对两种统计方法的一类错误和统计效能进行比较。结果:基于基因分析时:在数量性状时,稀有变异和常见变异强效应时,即使混有无关联变异且稀有变异和常见变异间弱相关,根据该基因测序数据,LCA可很好对观测进行分类,且效能较高;稀有变异效应较强时,如常见变异弱效应或无效应,但和稀有变异强关联(可能存在连锁不平衡)且混有无关联变异较少时,应用LCA模型也可对观测分类,且有一定的效能;变异弱效应时,无论变异间关联如何,LCA效能均较低,且变异无效应时频繁出现模型不收敛的情况,无法对观测进行分类。但相比PCC方法,LCA方法I类错误更低。二分类性状且变异效应较低时,PCC和LCA方法效能均较低,但LCA方法的一类错误仍有优势。基于通路分析时:LCA方法基于通路进行遗传关联分析时,通路作为一个整体,统计效能为1.000,I类错误为0.030。用LCFA方法进行通路的遗传关联分析,通路中三个因子的统计效能分别为0.595,1.000和0.980;I类错误分别为0.070,0.040和0.045。结论:潜在类别模型和潜在类别因子模型可以和稀有变异的集合策略结合,通过构建遗传变异数据的分类潜变量,进行稀有变异的遗传关联研究。采用基于基因的分析策略时,在本研究样本量条件下(n=697)数量性状时,即使混有较多无关联变异且变异间弱相关,LCA可识别较强效应的稀有变异和常见变异。但变异效应减低时,LCA效能降低,且受无关联变异混杂和变异间关联的影响。当变异无效应时LCA不收敛的可能性增加。二分类性状且变异效应较低时,LCA方法效能较低。采用基于通路的分析策略时,潜在类别因子模型不仅可以对异质性人群分类,同时可识别通路中遗传变异间的潜在类别因子结构,将具有共同特征的遗传变异降维成因子,为进一步生物学机制研究提供参考。