论文部分内容阅读
随着人们对基因测序工作的相继完成,全基因组关联研究(GWAS)方法被广泛应用到多种复杂疾病/性状的遗传学研究中,并成为当下研究基因与复杂疾病关联性最主要的策略和工具。全基因组关联分析在解析人类复杂疾病的基因成分上获得了巨大的成功,但是对于大多数复杂疾病来说,由全基因组关联分析所发现的高频-普通易感性位点只能解释疾病性状方差5%-10%的比率,这种遗传解释能力(遗传力)几乎已经达到了对影响疾病的基因发现的极限。基于此,人们开始把注意力转移到解决全基因组关联分析对基因与疾病性状关联分析的局限性上。本文主要研究基于普通疾病-稀有变量(CDRV)假设下的稀有变量与疾病性状的相关性检验问题。全基因组关联分析的前提假设条件是普通疾病-普通变量(CDCV)假设,研究对象普遍是次等位基因频率高于0.05的普通基因变量,CDCV假设下关联分析遗传力的低下使得人们开始考虑普通疾病-稀有变量(CDRV)假设,即研究稀有变异与疾病的关联。稀有变异指的是在同一个功能性单位内,例如基因、通路或者超保守区域内的次等位基因频率小于或等于1%但是具有适中效应的基因变量。一般来说,虽然稀有变量的效应可能较高,但是因为次等位基因频率很小,其所含的信息量因而相对较少。另外稀有变量对疾病性状的影响机制是多个横贯于整个基因上的不同变量都对疾病的风险有着独立的影响,但是每一个变量都只贡献了其中很小一部分,所以基因与疾病性状关联性分析的检验功效通常偏低。在稀有变量与疾病性状的检验问题上,传统的关联分析检验方法包括单一位点检验方法和多位点检验方法,功效都很低,不适用于稀有变异的检验问题。本文中针对稀有变量与疾病性状的关联性检验问题,提出两种新的检验方法:基于风险的可变阈值方法(rb-VT)和基于泊松逼近的得分检验稀有变量分析方法(PAST)。两种方法都运用了将变量信息进行聚合的想法,聚集稀有变量的信息量以解决稀有变量的信息过于稀少的问题,对基因变量与疾病性状的关联性问题进行检验的同时也考虑对变量进行删选。基于风险的可变阈值方法应用多因子维度降维方法的思想,以病例对照间的比率为风险因子作为标准,合并风险基因,并逐个改变阈值的选取得到多个检验统计量的最大值,以置换得到检验的显著性水平;基于泊松逼近的得分检验分析方法从稀有事件的角度看待稀有变量与疾病性状的相关性检验问题,以泊松分布近似逼近多个稀有变异的频数,得到在原假设之下近似标准正态分布的得分检验统计量,并运用基于风险的重排序方法对所有的基因变量进行重新定序,得到多个得分检验统计量中的最大值,同样运用置换的方法得到检验的水平。我们运用大量的模拟实验与变阈值方法和加权求和方法进行功效对比,结果表明我们的方法在功效上都有了提高,删选变量的结果也得到了提升,为稀有变量与疾病性状的关联分析方法提供了新的途径。