论文部分内容阅读
单倍型在现代遗传流行病学研究中起着非常关键的作用,尤其是在进行复杂疾病基因定位研究时,基于单倍型的连锁分析或关联分析方法比基于单个SNP位点的分析方法有更大的功效.但实际中我们直接得到的不是个体的单倍型而是基因型,因此单倍型分析的首要任务就是根据已知的基因型数据推断个体的单倍型,其次是利用得到的单倍型进行连锁分析和关联分析的研究.然而目前已有的单倍型分析的统计方法(包括单倍型推断方法和基于单倍型的连锁分析与关联分析方法)几乎都没有考虑基因型测量误差给单倍型分析带来的影响,它们均是在基因型不含有测量误差的假设下进行的,问题是目前所用的大部分基因型数据都含有一定的误差.本文的主要目的就是给出基因型带有测量误差时单倍型分析的统计方法,其中主要包括单倍型推断方法和单倍型关联分析的方法.
本文分别就群体数据结构和家系数据结构给出了基因型含有测量误差时的单倍型推断方法,并且给出了降低基因型误差影响的单倍型关联分析的方法.首先在群体结构的单倍型推断研究中,我们提出了两种全新的设计方法。双重抽样设计和多次测量设计,并基于这两种设计方法提出了适合于含有误差基因型的单倍型推断的DS-EM算法和MG-EM算法.对于家系数据结构,我们充分利用家系中个体之间有用的相关信息提出了基因型含有误差时单倍型推断的GS-PEM算法.在进行单倍型关联分析的研究时,我们就病例一对照研究中基因型含有误差情况下考虑了基于单倍型的logistic回归模型,给出了单倍型关联分析研究的似然方法.上述各种方法我们都通过模拟研究或实例分析考察其在实际中的可行性,并且通过和其他方法的模拟比较研究去分析其优劣性.无论是理论分析还是模拟研究都说明我们的方法在实际中是可行的,并且能够大大降低基因型测量误差给单倍型分析带来的影响.