单体型分析的算法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:wwwman
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
单体型是染色单体上一组紧密连锁的位点,通常会共同遗传给后代,可以视作多个位点组成的“超级等位基因”。单体型信息在全基因组关联分析,连锁分析,遗传表现,流行病学,群体遗传学中都有重要的作用。大部分生物,包括人类都是二倍体,常规的新一代测序技术只能获得两条单体型复合得到的基因型序列信息,而每条染色体上各自的序列信息(又称为相型信息)无法被直接观测。此外,将来自不同个体DNA混合测序的混合基因池设计方法,由于具有成本低廉等优点,也被广泛应用在全基因组关联分析(GWAS)的第一阶段中。因此,如何从不完全的基因型数据,或是混合基因型数据中,重建个体的相型信息,推断出群体中真实存在的单体型以及估计对应的频率,是基因组学研究中的基础问题,已经得到了广泛关注。本文梳理了文献中单体型分析的主要算法框架发展历史,并且提出了基于压缩感知的单体型频率估计算法CSHAP以及用于分型的基于近似溯祖先验的广义EM算法(GEM)。大量模拟研究表明,CSHAP算法在单体型频率估计问题上有优秀的表现和极高的计算效率。我们的算法支持个体设计和混合设计,并且无论当哈代-温伯格平衡定律成立与否均可以给出稳健估计。从模拟试验的表现上看,CSHAP的精度和目前公认的最精确的PHASE算法近似,小样本下的精度甚至比PHASE更好。而在大样本下,CSHAP的计算速度要比PHASE快2~3个数量级,并且时间消耗相对样本量仅呈现对数级增长,可以高效地应用于大规模数据集上。对于混合基因池设计,CSHAP的计算复杂度与池的容量无关,可以支持处理任意大容量下的混合DNA设计,同时允许的最大位点数也远超于文献中现有的最好算法。测序实验中,由于实验仪器原因,往往存在缺失位点,缺失数据会对下游研究造成很大影响。因此如何将缺失基因数据补全成为完整数据,是基因组研究中至关重要的问题。文献中已有很多基因补全的方法,包括纯统计的,基于连锁不平衡的或是基于参考单体型的算法。我们比较了不同基因补全算法的精度,并且将EM算法和CSHAP算法扩展到缺失数据补全上。模拟实验表明,使用单体型信息补全的算法精度要高于基于连锁不平衡的。由于压缩感知对于缺失的稳健性,CSHAP算法可以提供相当高的补全精度。同时,CSHAP的频率估计精度受缺失率的影响很小(相对于其它算法),即使缺失率较高情况下也可以给出稳健的估计。一直以来,基于EM的推断算法被认为具有较高的频率估计精度,但是单体分型精度较差。这是因为频率估计和单体分型问题的目标不同,频率估计要求估计的单体型与真实存在的单体型精确相同,但单体分型更加需要考虑分型结果和真实双体型的相似性。我们分析了EM分型精度差的原因,并且采用其它框架下的知识作为先验,提出了广义EM算法(GEM)。模拟研究表明,GEM的分型精度要远高于常规的EM算法,和主流分型软件fastPHASE接近,但是GEM的运行效率要比PHASE,Shape-IT等均高出数个数量级。最后,利用进一步的HMM改进,GEM可以支持任意长序列的分型问题。
其他文献
废旧沥青混合料的再生利用对节约型社会、环境保护和可持续发展战略等有着重要意义,厂拌热再生作为最普遍的再生方法普及较早、应用较广,但再生效果一直不够理想。废旧沥青混
网络钓鱼的目的是获取个人的身份信息,为达到这一目的,攻击者可能采用各种方法,用“钩”钓,用“网”捞,用炸药“炸”等等。这些攻击方法在国际上被称统为“在线身份窃取”,目
目的系统评价护士职业倦怠的真实体验。方法计算机检索PubMed、CINAHL、Web of Science、中国知网、万方数据库、维普数据库,搜索关于护士职业倦怠的质性研究,检索时限均从建
近些年来,互联网安全问题日益尖锐。随着网络规模的不断扩大及攻击手段的日益复杂,传统的网络安全防护设备已经无法应对大规模网络的安全检测和防护。因此本文提出了一种基于数据挖掘的网络安全态势感知方法,借助数据挖掘技术能迅速地从海量数据中发现有价值的信息的优势实现对网络态势的感知。本文综合运用多源报警融合、数据挖掘、态势感知技术,实现对大规模网络环境的威胁评估,以便及时地对网络威胁作出预警和防御。本文主要
柱孢藻毒素对动物及人体有严重的危害性,并有很强的致癌作用,现已成为全世界给水处理研究中的新兴对象。柱孢藻毒素的性质特点决定其难以去除,常规处理中混凝、消毒等重要环
在长期的自然选择中,动物进化出灵活的代谢策略以应对复杂多变的环境条件,对野生动物代谢策略了解不仅可以增加动物适应环境策略多样性的理解,还可以为濒危野生动物保护策略制定提供技术支持。川金丝猴是分布在高海拔针叶林中的一类濒危灵长类动物,栖息环境温度、食物季节性变化幅度大,了解川金丝猴的代谢策略具有非常重要的意义,然而,由于取样困难,特别是对于野生濒危动物的取样非常困难,因此川金丝猴在自然环境中的能量代
<正>李白诗歌具有强烈的自我表现色彩和直抒胸臆的表情方式,这是不争的事实。"大道如青天,我独不得出"、"我本不弃世,世人自弃我"的呼号,评说的妙文何啻百千。对于李白笔下伊
会议
高校在机构知识库建设方面存在优势,而加入机构知识库联盟对于实现跨越式发展具有重要意义。根据我国高校机构知识库联盟建设现状,对比三大高校机构知识库联盟的基本情况,提
深部地层岩石硬度高、研磨性强,如何提高深井、超深井破岩效率是深层油气资源高效开发面临的关键问题之一。液相放电等离子体破岩方法是一种能将电能转换为机械能的新型高效