论文部分内容阅读
在生物遗传和进化的研究中,突变率的估计是一个很重要的问题,因为突变是进化的最终来源,对突变率的估计往往是深入开展其它方面研究的基础。对突变率的估计又是一个复杂的问题,通常人们所说的突变率是指群体水平的突变率,即每一个个体每一代(对分子数据而言是每条序列每一代)的突变率,并假设每一代的突变率不变,是一个常数。深入到个体水平,或个体发育某个阶段,比如种系发育阶段每一次细胞分裂时的突变率的估计几乎是一片空白。最近有学者对雄性黑腹果蝇种系发育过程中隐性致死或近致死突变在各个细胞分裂阶段的突变率进行了研究。该研究基于大规模突变筛选实验,利用细胞溯祖理论建立了突变率估计的极大似然的统计框架,得以对雄性黑腹果蝇种系发育过程中的突变率进行深入的了解。他们的结论是雄性黑腹果蝇种系发育过程中这一隐性致死突变的突变率是显著不同的。本文在上述研究的基础上对雄性黑腹果蝇种系发育过程中隐性致死突变的突变率的估计做了一些统计方法和数值算法上的研究,提出了一种新的统计框架,即最小化χ2统计量的框架来对突变率进行估计,并对这一统计方法的性质进行模拟研究。众所周知χ2统计量可以用来进行拟合优度检验(Goodness of fit test),鲜为人知的是χ2统计量还可以用来进行参数估计,即求未知参数使得χ2统计量最小。而且对于小样本,最小化χ2统计量得到的估计比极大似然估计还要好。开展本次研究的一个目的是提高极大似然估计的效率,因为在最大化似然函数时需要大量的时间开销,这是一个优化问题,由于没有解析解以及现成的优化方法失效,所以利用拉网式搜索(Grid search)的方式来寻找最优解。本文最小化χ2统计量框架的一个最大的优点是极大的提高这一方面的效率,在一些适当的简化以后,最小化χ2统计量的过程转化为一个参数带有非负约束的二次规划问题,可以利用已有的最优化理论和算法,快速的得到最优解,我们选用的是Lemke互补转轴算法。本研究提出的新方法对突变率估计的效率与前人用极大似然法估计的效率有了质的提高。他们的拉网式搜索的方法需要借助于高性能服务器,而我们的方法在个人电脑上只要几秒钟到几分钟就可以计算出来,依赖于所分析的数据的复杂程度。当参数的维数增加的时候,拉网式搜索的方法就显得力不从心了,甚至是不可能的,而我们的方法可以轻松应对。我们用最小化χ2统计量的方法得到的突变率的估计与极大似然法得到的估计基本上是一致的,因为这两种统计方法得到的估计理论上在大样本情况下是渐进一致的。通过模拟,我们的方法是稳定可靠的,适合于有效的估计隐性致死突变这一类稀有突变。因为生殖细胞的发育与体细胞的发育是相似的,所以这一方法可以用于分析感兴趣的体细胞的数据。另外,人类的发育与模式生物的发育是类似的,当然人类的发育会更复杂,期待这一方法可以对人类数据进行分析。最小化χ2估计方法还有望用于分析下一代测序(Next generation sequencing)数据。因为下一代测序技术可以做到对单细胞进行大规模测序,与本文分析的果蝇数据有相似的结构。反之,对下一代测序数据的分析也可以对实验设计提供理论参考。比如设计最佳的测序长度,样本大小,期望的精度。在对日益增长的分子数据进行分析的时候,可靠高效的统计方法是众所期待的,本研究提出的方法由于算法的高效性在分子生物学的研究中有广泛的应用前景。