论文部分内容阅读
目的:纵向二代测序数据相比于横断面数据,可以研究复杂性状随时间的变化关系、遗传位点对复杂疾病的动态效应,从而提高遗传变异对复杂疾病的解释程度。由于罕见变异的发生率极低,全基因组关联研究(genome-wide association studies,GWAS)常用的基于单个位点的分析用于罕见变异分析时,统计效能过低。现有的罕见变异分析大多数以基因为单位,研究一组罕见变异的遗传效应。有关纵向数据罕见变异关联分析的方法刚刚起步,由于纵向二代测序数据有限的样本量和不可避免的数据缺失,现有的广义估计方程(generalized estimating equations,GEE)和线性混合效应模型(linear mixed model,LMM)框架下的罕见变异关联分析面临计算的挑战。因此,针对纵向二代测序数据,迫切需要发展高效且计算上可行的关联分析方法,以克服现有方法的不足,筛选出对人类复杂疾病有重要影响的遗传变异位点或基因,为人类复杂疾病相关基因的识别,提供方法学支撑,为精准医学发展和新靶点的发现和挖掘提供证据。方法:本文提出基于惩罚GEE(pGEE)和惩罚二次推断函数(penalized quadratic inference function,pQIF)的纵向数据罕见变异关联分析方法。在pGEE和pQIF框架下,借用加权合计检验(Weighted Sum Statistic,WSS)以及遗传风险得分的思想,以基因为单位,对基因内所有常见变异和罕见变异加权求和,得到新的基因得分变量,将基因得分变量引入到pGEE和pQIF中进行分析,研究基因得分与疾病之间的关系,从而筛选出复杂疾病相关基因。利用GAW18真实遗传数据,模拟产生连续和二分类的血压表型数据,综合评价pGEE和pQIF纵向数据罕见变异关联分析在不同模型条件下的参数估计和基因筛选情况,同时,探讨pGEE和pQIF纵向数据罕见变异关联分析在不同作业相关矩阵下基因筛选的稳健性和一致性。最后,基于通路进行GAW18真实数据分析,选取高血压相关的两条重要通路,肾素-血管紧张素系统(Renin-angiotensin system,RAS)和Ca2+/AT-IIR/a-AR信号通路,以识别出高血压相关基因。结果:惩罚GEE和惩罚QIF的参数估计精度远优于未惩罚的GEE和QIF,随着样本量的增大,惩罚模型的参数估计精度接近于oracle模型,oracle模型即为仅包含效应为非零系数变量的真实模型;连续应变量的pGEE和pQIF纵向数据罕见变异关联分析的参数估计和变量选择结果略优于二分类应变量结果,体现出二分类模型的复杂性。pQIF的错误选择率极低,且在不同作业相关矩阵设置下参数估计具有稳健性和一致性,优于pGEE。然而,在样本量较小且维度较高时,pQIF无法正确选择效应基因;而pGEE对高维度且小样本情况,仍能以较高的正确选择率筛选出效应基因。因此,在纵向数据罕见变异关联分析中,当样本量较小且维度较低时,采用pQIF以避免错误选择;当样本量小且高维度时,采用pGEE方法。在Ca2+/AT-IIR/a-AR信号通路中,pGEE和pQIF共同识别出基因AGTR1;在RAS系统通路中,pGEE识别出THOP1和PRCP基因,pQIF识别出THOP1基因和ACE基因。结论:针对纵向二代测序数据分析,构建了pGEE和pQIF纵向数据罕见变异关联分析方法,两种方法互为补充,能应用于自变量个数随样本量增大而增大的情况,有效地识别出复杂疾病相关基因。随着纵向二代测序数据的日益增多,pGEE和pQIF纵向数据罕见变异关联分析的应用将更为广泛。