论文部分内容阅读
单体型是染色单体上一组紧密连锁的位点,通常会共同遗传给后代,可以视作多个位点组成的“超级等位基因”。单体型信息在全基因组关联分析,连锁分析,遗传表现,流行病学,群体遗传学中都有重要的作用。大部分生物,包括人类都是二倍体,常规的新一代测序技术只能获得两条单体型复合得到的基因型序列信息,而每条染色体上各自的序列信息(又称为相型信息)无法被直接观测。此外,将来自不同个体DNA混合测序的混合基因池设计方法,由于具有成本低廉等优点,也被广泛应用在全基因组关联分析(GWAS)的第一阶段中。因此,如何从不完全的基因型数据,或是混合基因型数据中,重建个体的相型信息,推断出群体中真实存在的单体型以及估计对应的频率,是基因组学研究中的基础问题,已经得到了广泛关注。本文梳理了文献中单体型分析的主要算法框架发展历史,并且提出了基于压缩感知的单体型频率估计算法CSHAP以及用于分型的基于近似溯祖先验的广义EM算法(GEM)。大量模拟研究表明,CSHAP算法在单体型频率估计问题上有优秀的表现和极高的计算效率。我们的算法支持个体设计和混合设计,并且无论当哈代-温伯格平衡定律成立与否均可以给出稳健估计。从模拟试验的表现上看,CSHAP的精度和目前公认的最精确的PHASE算法近似,小样本下的精度甚至比PHASE更好。而在大样本下,CSHAP的计算速度要比PHASE快2~3个数量级,并且时间消耗相对样本量仅呈现对数级增长,可以高效地应用于大规模数据集上。对于混合基因池设计,CSHAP的计算复杂度与池的容量无关,可以支持处理任意大容量下的混合DNA设计,同时允许的最大位点数也远超于文献中现有的最好算法。测序实验中,由于实验仪器原因,往往存在缺失位点,缺失数据会对下游研究造成很大影响。因此如何将缺失基因数据补全成为完整数据,是基因组研究中至关重要的问题。文献中已有很多基因补全的方法,包括纯统计的,基于连锁不平衡的或是基于参考单体型的算法。我们比较了不同基因补全算法的精度,并且将EM算法和CSHAP算法扩展到缺失数据补全上。模拟实验表明,使用单体型信息补全的算法精度要高于基于连锁不平衡的。由于压缩感知对于缺失的稳健性,CSHAP算法可以提供相当高的补全精度。同时,CSHAP的频率估计精度受缺失率的影响很小(相对于其它算法),即使缺失率较高情况下也可以给出稳健的估计。一直以来,基于EM的推断算法被认为具有较高的频率估计精度,但是单体分型精度较差。这是因为频率估计和单体分型问题的目标不同,频率估计要求估计的单体型与真实存在的单体型精确相同,但单体分型更加需要考虑分型结果和真实双体型的相似性。我们分析了EM分型精度差的原因,并且采用其它框架下的知识作为先验,提出了广义EM算法(GEM)。模拟研究表明,GEM的分型精度要远高于常规的EM算法,和主流分型软件fastPHASE接近,但是GEM的运行效率要比PHASE,Shape-IT等均高出数个数量级。最后,利用进一步的HMM改进,GEM可以支持任意长序列的分型问题。