论文部分内容阅读
全基因组关联分析能够识别大量与复杂疾病有关的常见变异,然而这些常见变异仅解释了小部分的疾病遗传力,有证据表明罕见变异能够解释大部分疾病遗传力。鉴于罕见变异的次等位基因频率很低,常见变异关联分析方法对于罕见变异来说并不是最优的。因此,罕见变异关联分析成为近些年研究的焦点。另外,在复杂疾病中,基因多效性(一个基因变异对于多个性状的影响)是普遍存在的现象,联合分析多重性状能够提高识别具有多效性的基因变异的统计功效,发现潜在的遗传机制。因而,越来越需要发展功效高的方法联合分析多重性状。本论文主要基于群体数据进行基因变异与单个性状或多重性状的关联分析研究。首先,提出一种基于Fisher结合P值的方法检验罕见变异与单个数量性状的关联性。对基因区域内的每个罕见变异进行计分检验,得到检验的P值。根据每个罕见变异与数量性状的相关性合理区分罕见变异效应的方向。针对不同方向,按照Fisher结合P值的方式,对关联信号强的罕见变异的P值进行加权组合,权重依赖于次等位基因频率和每个变异与性状的协方差。模拟研究表明当基因区域包含大量非致病变异时,该方法保持较高功效。其次,给出一种基于逆回归模型的自适应结合P值的方法检验罕见变异与多重性状的关联性。在逆回归模型下,分别检验每个罕见变异与多重性状的关联性,得到检验的P值。根据罕见变异与多重性状的第一主成分的相关性合理区分罕见变异效应的方向。针对不同方向,自适应结合单个变异检验的P值,其权重依赖于每个变异的次等位基因频率和罕见变异与多重性状的第一主成分的协方差。模拟研究表明当基因区域包含大量非致病变异时,该方法保持较高功效;存在干扰性状时,该方法是有效的。最后,提出一种降维的方法检验罕见变异和常见变异与多重性状的关联性。将基因变异与每个性状进行关联检验,得到检验统计量。为达到降维的目的,以这些检验统计量为权重去结合原始性状,得到原始性状的线性组合。然后检验这个线性组合与基因变异的关联性。然而在出现干扰性状时,这种方法会损失功效,于是以这个方法为基础,给出一种能排除干扰性状的方法。模拟研究和真实数据分析表明,这种降维的方法作为基于区域的关联分析方法是可行的、有效的。