论文部分内容阅读
群体遗传学是研究群体的遗传结构及其变化规律的遗传学分支学科.应用数学和统计学方法研究群体中基因频率和基因型频率以及影响这些频率的选择效应和突变作用,研究迁移和遗传漂变等与遗传结构的关系,由此探讨进化的机制.研究群体遗传学的目的,是揭示群体遗传组成变化的机制.如何表达群体遗传组成,并具有可分析的形式,这就需要定量表示群体的等位基因频率和基因型频率,进而研究群体中不同世代遗传结构的演变方式和比较群体间的遗传差异.由于科技发展,遗传序列数据爆炸性增长,群体遗传学己经进入基因组时代,遗传数据的分析和合理模型的建立显得更加重要.概率统计模型和算法是群体遗传学研究中的主要方法论工具.马氏过程的无记忆性适用于描述某些进化过程中的特质,因而马氏过程作为一种最特殊的随机过程为群体遗传学模型的建立和数据的分析提供了强有力的工具.本文中,本文主要使用马氏过程为工具,结合极大似然方法,贝叶斯方法对群体遗传学中的一些问题建立模型,设计算法,分析数据等.本文首先在Kingman溯祖的框架下考虑了细胞群体的癌症等待时间.癌症是基因突变的结果,导致癌症初始所需要的体细胞突变的数目由具体癌症类型决定.因此,在细胞群体中首次产生一个带有M个突变的细胞的时间Tm是一个癌变过程群体遗传模型中重要变量.由于突变,漂移和选择的交互作用,这样的模型很难进行理论上的解析分析.而由于很低的突变速率和很大的细胞群体大小,在Moran模型下用传统方法模拟癌症细胞群体也非常困难.本文设计了一种高效算法来模拟在癌症发展的群体遗传模型下的癌症等待时间Tm.在该算法中,本文使用了精确算法来模拟较小的子群体(或称细胞类型),而用粗粒化的Τ-leaping算法来近似处理较大的子群体,称此算法为混合算法.在较小群体大小下,本文比较了混合算法与精确算法的表现;在群体大小较大的情况下,在渐进结果适用的前提下,本文比较了混合算法与渐进结果.比较结果显示,混合算法既精确又高效率.本文还提出了另一个研究癌症动力系统的群体遗传学模型,称为群体大小可变的Moran模型,并用所设计的算法研究了20个突变的癌症等待时间.由于可变的突变速率与选择适应性在癌变过程中都扮演了重要角色,因此本文设计的算法可用于研究和分析癌变过程的实际数据.另一项工作讨论了贝叶斯分析中树长估计的若干问题.最近的研究表明在使用MrBayes软件进行序列数据贝叶斯分析时,有时会得到非常大的树长,并且树长(枝长之和)的后验的置信区间不包含极大似然估计值.可能引起这个现象的原因包括在后验分布密度函数存在多个峰,在后验密度函数尾部MCMC算法不收敛和设置不正确的先验.本文分析了马氏链蒙特卡洛算法在后验密度函数尾部的行为,发现上述三种情况均可能出现.在贝叶斯系统发育学中,当枝长增加到无穷的时候,似然函数接近一个非零常数.似然函数尾部平坦会导致混合问题和受到先验不当影响.本文认为在很多贝叶斯分析中导致目前的贝叶斯系统发育学软件得出过长枝长的主要原因是先验的不当选取.MrBayes的缺省先验为独立同分布的枝长,这个假设是很强并且不合理的.如果模型中假设突变速率可变时,枝长和模型中参数有较强相关性会加剧这个问题.为了解决这个问题,本文建议为枝长设置两重先验,称为组合狄利克雷先验.组合狄利克雷先验是一个信息分散的先验.分析结果表明,对多维先验的贝叶斯分析,先验的选取必须十分谨慎.最后,本文建立了一个三个物种的隔离移民模型并根据模型设计似然比检验以检测基因流是否存在.在模型中,两个近缘物种问存在移民,与外群没有基因交流,而外群物种提供了关于基因树和模型参数的进一步信息.模型在似然函数框架下建立,用于分析多个位点的基因组数据.数据来源为每一个物种中抽取一条序列.在每个位点上,基因树拓扑和枝长的先验分布根据一条马氏链来计算,该马氏链描述了溯祖和移民的谱系过程.似然函数的计算通过对基因树中的枝长(溯祖时间)进行数值积分得到.本文分析了这个模型,研究了基因树-物种树冲突的概率和在一个位点上从现在到最近共同祖先的时间的分布.模型用来构建了一个测试是否存在基因流的似然比检验.本文做了数值模拟以评价所构建的检验,模拟结果显示总的来说检验是比较保守的,假阳性率均保持在显著水平(5%)以下.要使得检验具有很强的功效需要上百个位点的数据.本文运用了所提及的模型去检测了人类-黑猩猩-大猩猩的基因数据,检验结果显示,在人类和黑猩猩物种分化时刻附近存在基因流.