论文部分内容阅读
人类的很多疾病都是复杂疾病,其发生和发展的过程可能都要受到基因、环境等各种因素的影响,所以寻找致病基因位点对人类认识复杂疾病的发病机制、找到正确的诊断和治疗以及预防方法都有重要的意义。全基因组关联分析已经成功地辨别出很多与人类性状或复杂疾病相关的常见基因变异。随着研究的深入进行人们发现了许多复杂疾病与罕见变异相关。因此,基因变异的关联分析成为了近几年的研究热点问题。本论文主要利用统计方法研究疾病与基因变异之间的关联性。首先,利用结合P值的统计方法分析了基因变异和二分性状之间的关联性。将基因区域内的每个罕见变异进行Fisher精确检验,每个常见变异进行计分检验,得到每个检验的P值。再根据病例组和对照组含有的次等位基因个数将所有变异分为有害变异和保护变异。按照这两种变异各自进行P值的加权组合,每个变异分别给予合适的权重。罕见变异的权重取为参数为1和25的贝塔分布密度函数,常见变异的权重取为参数为0.5和0.5的贝塔分布密度函数。为了防止非致病变异的影响,将P值比某个临界值大的基因变异去掉。临界值不固定为一个值,而是使用多个临界值,再根据给定的数据集选择最优临界值。其次,利用结合P值的统计方法分析了罕见变异和数量性状之间的关联性。对基因区域上的每一个罕见变异进行计分检验,同时调整协变量,得到检验的P值。再根据携带和不携带次等位基因的个体的性状值的平均值将基因变异划分为有害变异和保护变异,按照两种变异分别进行P值的截尾加权组合,每一个变异的权重取为参数为1和25的贝塔分布密度函数。当致病变异的影响方向不同或者有大量非致病变异存在时,前面提出的两种方法是稳健的。最后,在极端表型样本设计下分析了罕见变异和数量性状之间的关联性。首先考虑样本的设计,选取表型值为极端值的样本会增加罕见变异关联的信号。将极端表型做二分处理,表型值比较大的个体作为病例组,表型值比较小的个体作为对照组。对于这样的“病例-对照”数据建立logistic回归模型,将所有基因变异的效应分为共同效应和偏离共同效应的个体效应。共同效应看作固定效应,个体效应看作随机效应。对两种效应进行检验,计算各自的P值。再用Fisher结合P值的方式和最小P值的方式两种办法得到最终的检验统计量。大量的模拟分析表明,我们提出的方法在大多数情况下有比较高的功效,在样本量相同的情况下,使用极端表型样本要比使用随机样本功效高很多。