论文部分内容阅读
基因组学(genomics)的概念在1986年提出,随着人类基因组计划和人类基因组单体型图计划的实施,基因组学的研究已经系统化,海量出现的基因数据也成为各类生物研究的重要依据。由于当前生物技术的约束,实验手段获得的大量数据并不能直接为生物研究所使用并存在着数据的丢失,而重新检测数据意味着巨大的成本和大量时间消耗。基因数据中存在着特有的生物特性,计算方法可以利用这些生物特性对丢失的数据进行拟合,并转化为生物研究所需要的数据。本文围绕单体型推导和补缺两方面的问题进行研究,主要研究工作和贡献如下:1.群体数据集单体型推导概率算法是群体数据集下的单体型推导中的一类重要方法,但该类方法难以准确求解较大规模的问题,于是分块的思想被引入到概率算法中。前期的分块方法采用的是点对间的不平衡连锁的划分思想,本文采用多位点关联的方法进行分块,该方法在单体型分块的研究中被证明相比其他的分块方法更加合理,但该方法不能直接使用于基因型的分块,本文使用了滑动窗口对窗口内的数据进行预处理再利用多位点关联的方法进行分块。通过真实数据和模拟数据的测试,我们新的单体型推导方法EPLEM的运行时间与性能较优的几个算法保持在一个数量级上,同时推导出的单体型错误率得到有效降低。在真实数据集5q31上,EPLEM算法在个体错误率和和交换错误率上均低于其他算法,其中个体错误率降低1%到9%,运行时间为7.8s。2.基于分块的非参考单体型补缺目前,补缺问题主要利用已有单体型数据对样本补缺,当缺乏参考单体型时,需要利用样本自身的信息对样本进行补缺。本文使用分块方法,可将块内的数据分为完整和缺失两部分,完整部分可用作参考单体型,通过统计块内单体型出现频率来对缺失位点进行补缺。本文模拟生成了连锁不平衡较弱和较强的两类缺失基因型数据,并与Jung等人提出的非参考单体型补缺算法进行了计算实验比较。对于连锁不平衡较弱的数据,本文算法的正确率有1%到2%的提高;对于连锁不平衡较高的数据,本文算法的正确率有7%到10%的提高。