马氏过程在群体遗传学中的应用

来源 :北京大学 | 被引量 : 1次 | 上传用户:xuefu2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
群体遗传学是研究群体的遗传结构及其变化规律的遗传学分支学科.应用数学和统计学方法研究群体中基因频率和基因型频率以及影响这些频率的选择效应和突变作用,研究迁移和遗传漂变等与遗传结构的关系,由此探讨进化的机制.研究群体遗传学的目的,是揭示群体遗传组成变化的机制.如何表达群体遗传组成,并具有可分析的形式,这就需要定量表示群体的等位基因频率和基因型频率,进而研究群体中不同世代遗传结构的演变方式和比较群体间的遗传差异.由于科技发展,遗传序列数据爆炸性增长,群体遗传学己经进入基因组时代,遗传数据的分析和合理模型的建立显得更加重要.概率统计模型和算法是群体遗传学研究中的主要方法论工具.马氏过程的无记忆性适用于描述某些进化过程中的特质,因而马氏过程作为一种最特殊的随机过程为群体遗传学模型的建立和数据的分析提供了强有力的工具.本文中,本文主要使用马氏过程为工具,结合极大似然方法,贝叶斯方法对群体遗传学中的一些问题建立模型,设计算法,分析数据等.本文首先在Kingman溯祖的框架下考虑了细胞群体的癌症等待时间.癌症是基因突变的结果,导致癌症初始所需要的体细胞突变的数目由具体癌症类型决定.因此,在细胞群体中首次产生一个带有M个突变的细胞的时间Tm是一个癌变过程群体遗传模型中重要变量.由于突变,漂移和选择的交互作用,这样的模型很难进行理论上的解析分析.而由于很低的突变速率和很大的细胞群体大小,在Moran模型下用传统方法模拟癌症细胞群体也非常困难.本文设计了一种高效算法来模拟在癌症发展的群体遗传模型下的癌症等待时间Tm.在该算法中,本文使用了精确算法来模拟较小的子群体(或称细胞类型),而用粗粒化的Τ-leaping算法来近似处理较大的子群体,称此算法为混合算法.在较小群体大小下,本文比较了混合算法与精确算法的表现;在群体大小较大的情况下,在渐进结果适用的前提下,本文比较了混合算法与渐进结果.比较结果显示,混合算法既精确又高效率.本文还提出了另一个研究癌症动力系统的群体遗传学模型,称为群体大小可变的Moran模型,并用所设计的算法研究了20个突变的癌症等待时间.由于可变的突变速率与选择适应性在癌变过程中都扮演了重要角色,因此本文设计的算法可用于研究和分析癌变过程的实际数据.另一项工作讨论了贝叶斯分析中树长估计的若干问题.最近的研究表明在使用MrBayes软件进行序列数据贝叶斯分析时,有时会得到非常大的树长,并且树长(枝长之和)的后验的置信区间不包含极大似然估计值.可能引起这个现象的原因包括在后验分布密度函数存在多个峰,在后验密度函数尾部MCMC算法不收敛和设置不正确的先验.本文分析了马氏链蒙特卡洛算法在后验密度函数尾部的行为,发现上述三种情况均可能出现.在贝叶斯系统发育学中,当枝长增加到无穷的时候,似然函数接近一个非零常数.似然函数尾部平坦会导致混合问题和受到先验不当影响.本文认为在很多贝叶斯分析中导致目前的贝叶斯系统发育学软件得出过长枝长的主要原因是先验的不当选取.MrBayes的缺省先验为独立同分布的枝长,这个假设是很强并且不合理的.如果模型中假设突变速率可变时,枝长和模型中参数有较强相关性会加剧这个问题.为了解决这个问题,本文建议为枝长设置两重先验,称为组合狄利克雷先验.组合狄利克雷先验是一个信息分散的先验.分析结果表明,对多维先验的贝叶斯分析,先验的选取必须十分谨慎.最后,本文建立了一个三个物种的隔离移民模型并根据模型设计似然比检验以检测基因流是否存在.在模型中,两个近缘物种问存在移民,与外群没有基因交流,而外群物种提供了关于基因树和模型参数的进一步信息.模型在似然函数框架下建立,用于分析多个位点的基因组数据.数据来源为每一个物种中抽取一条序列.在每个位点上,基因树拓扑和枝长的先验分布根据一条马氏链来计算,该马氏链描述了溯祖和移民的谱系过程.似然函数的计算通过对基因树中的枝长(溯祖时间)进行数值积分得到.本文分析了这个模型,研究了基因树-物种树冲突的概率和在一个位点上从现在到最近共同祖先的时间的分布.模型用来构建了一个测试是否存在基因流的似然比检验.本文做了数值模拟以评价所构建的检验,模拟结果显示总的来说检验是比较保守的,假阳性率均保持在显著水平(5%)以下.要使得检验具有很强的功效需要上百个位点的数据.本文运用了所提及的模型去检测了人类-黑猩猩-大猩猩的基因数据,检验结果显示,在人类和黑猩猩物种分化时刻附近存在基因流.
其他文献
建设信息化军队,是党的十六大为军队确立的战略目标。当前基层部队搞信息化建设,没有现成的经验可循。部队日常的人员管理、训练计划管理是一项非常重要的工作,目前主要依靠
以《中国统计年鉴》数据为基础,通过对中国最近10年来信息流变化趋势的探讨,总结出信息流的具体代表指标和计算方法.首先对构成复合生态系统的信息流指标进行了筛选,并进一步
文章从服装外贸尾货市场这一业态的现状入手,重点分析服装外贸尾货的来源、表现形式及主要销路,最后对服装外贸尾货市场的发展趋势作出预测。
本文论述了我国节能减排的意义、现状及措施,可供各类管理人员参考。
论述了在直流和交流工频(50Hz)电压下,检定高压静电电压表所建立的计量标准、计量标准设备、配套设备及采用的检定方法,并进行了误差分析,建立的计量标准符合国家计量检定系统表与计量
海顿的钢琴音乐作品在他的全部创作当中只占次要地位,然而其独特的音乐个性与艺术价值值得我们进一步深入研究。本文拟就海顿的钢琴音乐作品进行分析,对其音乐特性与艺术成就
科学研究是影响大学英语教师能否得到进一步发展的重要因素。大学英语教师从事科学研究是其真正获得高校从业人员合法身份的基本条件,也是深入推动大学英语教学改革提出的必
因病致贫群体,全国各地致贫群体中占比最多的一个群体,如何建立一个有效机制,让这部分人长效脱贫,决定着脱贫攻坚的成败。R市是S省东部沿海地区扶贫任务较重的市,脱贫攻坚以来至今,该市全力推进脱贫攻坚,目前该市贫困发生率已降至0.22%,2018年如期实现“基本完成脱贫任务”目标。但该市建档立卡贫困人口中脱贫享受政策的还有43792户、76284人,基数很大,还有不少随时会出现的突发致贫人口,这些群体均
信息在证券市场运行中发挥着至关重要的作用,但我国证券市场存在信息不对称现象。文章将上市公司出于自身意愿主动披露相关信息的行为称为自愿性信息披露。通过对海外大量相
林兆恩是明代三一教的创始人,是唐宋以来三教合一思潮的集大成者。林兆恩创立的九序功法奠基于中国传统的哲学思想基础之上,主要体现在阴阳相成、虚实相生、形神俱炼、天人合