论文部分内容阅读
全基因组关联研究作为一种发现复杂疾病易感基因的重要工具,已经帮助科学家们成功地找到了数干个与多种人类疾病相关联的遗传变异(单核苷酸多态性)。相较于一阶段设计(对全部病例和对照样本测序全部的位点),合理构建的两阶段设计(第一阶段从所有的病例-对照样本中选出一部分样本进行全部位点的测序,根据关联检验的结果选择一小部分最显著的位点进入第二阶段并在余下的样本上进行测序)能够大幅度地降低测序工作量和费用因此成为全基因组关联研究中一种常用的方法。对每个阶段的数据分开进行考查的重复分析方法常常会损失检验功效,已经有学者提出了组合两个阶段的检验统计量的联合分析策略以提高统计功效。现有的联合分析方法都是根据一个假定已知的遗传模型来构造检验统计量,但在实际中与疾病关联的单核苷酸多态性位点服从的遗传模型通常是未知的即遗传模型具有不确定性,如果假定的遗传模型不正确就可能会导致不稳健的功效表现。本文围绕两阶段设计下全基因组关联研究中稳健的单位点联合分析方法展开研究,主要包括以下三个分专题。(1)针对次要等位基因频率大于5%的常见遗传变异,我们提出了基于两个稳健检验统计量—最大最小效率的稳健检验(MERT)和MAX3检验(隐性、显性、可加遗传模型下计算的趋势性检验统计量绝对值的最大值)—的联合分析方法,得到了MERT联合分析检验统计量的大样本渐近分布形式并给出了计算MAX3联合分析方法p值和功效的一种高效可行的参数Bootstrap方法。通过大量的模拟研究对MAX3联合分析方法、MERT联合分析方法及重复分析方法、基于可加模型的趋势性检验统计量的联合分析方法及重复分析方法、基于等位基因检验统计量的联合分析方法及重复分析方法进行了统计功效的比较,数值结果表明联合分析的功效普遍地高于重复分析且MAX3联合分析方法具有最好的表现。对一项研究Ⅱ型糖尿病的实际数据进行了分析,利用MAx3联合分析方法计算的p值报告了一个新的风险单核苷酸多态位点。(2)针对次要等位基因频率小于5%的稀有变异,我们提出了基于Beta检验的重复分析方法和联合分析方法。给出了Beta检验的p值渐近服从标准均匀分布的理论证明。通过模拟比较了重复分析和联合分析的第一类错误率和功效,结果表明两种方法都能很好地控制第一类错误率,联合分析比重复分析具有更高的功效。将提出的两种方法用于风湿性关节炎的实际数据分析,证实了所考察的单核苷酸多态位点与风湿性关节炎有着显著的关联。(3)我们基于渐近贝叶斯因子提出了一种稳健的两阶段贝叶斯分析方法,并定义了检定概率来评价渐近贝叶斯因子排序方法的优劣。通过模拟比较了最大渐近贝叶斯因子联合分析方法、遗传模型平均渐近贝叶斯因子联合分析方法、可加模型渐近贝叶斯囚子联合分析方法的检定概率,结果表明最大渐近贝叶斯因子联合分析方法的表现最为稳健。对一组实际数据的分析结果表明最大渐近贝叶斯因子排序方法能够有效地检测到隐性或显性模型的单核苷酸多态性位点与疾病之间的关联。全文共分为六章。第一章是引言,介绍若干基本概念和研究背景;第二章是预备知识,介绍全基因组关联研究中一些常用的统计量和检验方法;第三章讨论常见遗传变异的两阶段设计与分析;第四章研究稀有遗传变异的两阶段设计与分析;第五章讨论基于渐近贝叶斯因子的两阶段设计与分析;第六章是总结以及对未来工作的展望。