面向二、三代测序数据的基因组序列拼接算法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:jlq100
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因组测序技术为生物学研究提供了基础数据,从而有力地推动了对生命活动规律的理解与认识。然而由于受限于测序技术,测序仪每次只能读出基因组上一个短片段,而不是一次读出完整的基因组序列。因此,从短片段恢复出完整基因组的序列拼接是生物信息学的一个基本问题。  测序技术不断发展,经历了第一代的Sanger法,以及“边合成边测序”策略的第二代测序法,现在又发展出来采用单分子技术的第三代测序法。不同测序技术产生的数据具有不同的特点,对拼接造成不同的困难。比如第二代测序数据读段(reads)比较短、通量高,因此基因组中大量存在的重复序列是拼接的主要问题;第三代测序技术产生读段长,天然具有解决一些重复序列的潜力;但是错误率很高且Ins/del错误多,使得难以直接用第三代测序数据进行拼接。  本文主要报告了两方面的工作:  1)提出了针对第二代测序数据的全局优化拼接方法:我们设计了新的针对第二代数据的序列拼接的拆解de Bruijn形成contigs的算法,并与他人合作开发了第二代测序数据的基因组序列拼接软件ARCS。我们的算法产生压缩de Bruijn图,估计压缩边的序列重数,挑选unique压缩边,利用pair-kmer的插入距离信息,估计unique压缩边之间的距离,并采用线性规划技术求得unique压缩边的最优排布,最终形成更长的contigs和scaffolds。  2)提出了第二、三代测序数据联合拼接算法:我们设计并开发了第二、三代测序数据联用的序列拼接软件ARCS23。我们不是采用“先拼接二代数据形成scaffolds,再用三代拼接scaffolds”的策略,而是利用长的第三代reads直接拆解二代数据的de Bruijn图。算法利用第二代测序数据形成压缩de Bruijn图,采用线性规划技术获得二代数据压缩边的最优排布,从而跨过复杂的重复序列,形成更长的contigs和scaffolds。  在多套真实测试数据集上的实验表明:同已有拼接软件做系统比较,两种拼接软件都取得了比较好的结果,显著地提高了拼接的长度。
其他文献
卫星移动通信技术是目前通信领域里的一个制高点。本文针对新一代静止轨道卫星移动通信系统——GMR-13G(GEO-Mobile Radio interface-13rd Generation,第三代静止轨道卫星)系统
贝叶斯网络作为不确定性知识表达和推理的一种方法,在很多领域都有着广泛的应用。贝叶斯网络是概率理论和图论相结合的产物,已经成为数据库知识发现和决策支持系统的有效方法。
实时系统是指不仅系统内部的行为及动作的完成与时间有关,而且对系统外部事件(如输入、中断等)的响应都要满足一定时间约束的系统。由于在国防及工业控制等领域应用广泛,因此这
学位
学位
USB总线因其高速、方便的特点,已经逐渐取代传统的低速总线,成为一种应用最为广泛的外设接口标准,越来越多的计算机外设开始采用USB接口。与此同时,共享USB设备的需求也变得越来
非结构化文本的实体解析对于综合多源数据挖掘实体信息具有重要的意义。伴随着大数据时代的到来,这一问题遇到了新的挑战:如何高效有效地进行大规模的实体解析。基于现有分布
在互联网技术高速发展的带动下,人类社会正逐步走向大数据时代,随着数据规模的指数级增长,数据间依赖的复杂度增加,传统关系型数据库系统已经无法满足某些新的应用场景的需求。基
为了加速对外围存储设备的访问速度,操作系统通常将设备中的部分数据暂存在内存中供需要时使用,这部分存放外存储设备数据的内存就叫做Buffer 在操作系统中,Buffer Cache是影
数控系统作为一种典型的强实时系统需要严格的实时处理功能和性能以及高可靠性。数控系统主要由各控制器中的周期性实时任务来完成实时控制,实时控制的正确性不仅仅依赖于计
网页中包含着大量的HTML结构信息、超链接和噪音信息,因此网页分类可以看成是半结构化的噪音环境下的文本分类问题.在互联网迅猛发展的今天,网页分类可以在较大程度上消除网