基因组二、三代测序数据联合拼接算法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:c1074527
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
测定基因组序列可以帮助人类认知生物体的生命规律,从而对农业,医学,环境等领域产生深远的影响;然而受限于测序技术,测序仪每次只能读出基因组上的一个短片段,而不是一次读出完整的基因组序列。因此,从短片段中恢复出完整基因组序列(即拼接)是生物信息学的一个基本问题。  测序技术的不断发展,给基因组序列拼接带来了新的可能,也带来了新的挑战。第三代的测序数据具有读段(reads,即测序仪测得的碱基序列片段)长、错误率高(ins/del错误多)的特点,其长读段给解决拼接问题中的难题-重复序列带来了希望;但是因为其高错误率,所以要想直接使用三代数据进行拼接,则需要较高的测序深度,导致测序成本很高。与之相反,二代测技术可以产生准确率高的、短的读段。因此,使用三代(低测序深度)和二代测序数据进行联合拼接,具有低花费、高质量的优势。  本文提出了一种新的二、三代测序数据联合的拼接算法,开发了拼接器ARCS23,主要思想是:先用已有的二代拼接软件对二代数据进行拼接,得到拼接图,再将该图分解成若干个小的局部拼接图;并行地将三代数据联配到局部拼接图上,给图中的边加权,对每个局部拼接图选择最重路径进行简化,对最重路径中最后一个结点重新建局部拼接图并简化,得到一些最重路径相连的contigs路径;检查这些contigs路径的覆盖和连接情况,并做去覆盖、连路径的操作;联配三代数据与contigs路径,从而指导contigs路径的先后顺序,得到最后的拼接结果。  本文的创新点主要有:  (1)提出了划分拼接图的思想,对比直接处理复杂的拼接图,该方法简便可行,同时,划分后的局部拼接图可以并行处理,大大降低了程序的运行时间;  (2)引入最重路的思想简化局部拼接图;  (3)充分利用了拼接图的连接信息。  实验结果表明,ARCS23可以部分解决了仅用二代数据无法解决的重复序列的问题,使拼接结果长度大大增加。与SSPACE-LongRead和HyBridPBcR的对比实验表明:在二代拼接结果好的情况下,ARCS23的长度和准确率上都有很大的优势,而且ACRCS23不需要高的三代的测序深度,从而有效降低了成本。
其他文献
随着Internet的普及,利用网络进行的攻击越来越多,且手段越来越高明,原有的被动防御安全策略已显得力不从心,有必要使被动防御与主动检测相结合,来加强网络与系统的安全性,保护重要
随着计算机网络在社会生活各个领域的不断渗入,计算机网络已经成为了我们生活的一个基本保障。一个完善的网络管理系统是计算机网络能够可靠和稳定运行的保证,而网络监视功能则
随着计算机网络技术的进一步发展,建立在网络基础上的商业运行模式--电子商务逐渐成熟与完善,并随全球经济一体化进程的加快,在世界范围内日渐得到普及。与传统的商务模式相比,电
BPR(业务过程重组)是90年代发展起来的,旨在通过建立高效优化的业务流程而全面改善产品生命周期的T、Q、C理论和技术.该文通过发展传统BPR理论并结合并行工程的思想,提出动态
随着多媒体技术、网络技术的迅速发展,图像信息的应用日益广泛,对规模越来越大的图像数据库、可视信息进行有效的管理成为迫切需要解决的问题,基于内容的图像检索是解决这一问题
海量小文件访问应用场景已经广泛存在,具有高比率高并发同步元数据访问与随机小粒度IO数据访问的两个本质特点,给当前分布式文件系统带来了降低访问延迟和提高存储效率的挑战。
移动智能网是叠加在原有移动网络上的业务网,用于提供各类智能数据业务.SCE是移动智能网中的一个实体,用于定义、开发、测试在智能网中所提供的新业务.该文总结了作者研究生
一个功能完善的企业电子商务(e-Business)信息系统系统,不仅要有内部的电子数据交换,也要有与贸易伙伴之间准确无误的电子数据交换,才能充分发挥MIS系统高效、准确、及时的优势
键值存储系统(Key-Value Store)通过允许硬盘上保留多个版本的数据来提供高速的写操作。其中旧版本的数据由键值存储系统提供的压实(Compaction)操作来删除。目前流行的压实
随着科学技术的不断进步和电子与计算机技术的迅速发展,铁路信号联锁软件也由继电器联锁向计算机联锁过渡,并逐步走向成熟。在计算机联锁系统中,联锁关系用联锁软件实现。但