高通量全基因组DNA序列拼接的并行算法关键技术研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户：xxxhht

【摘要】

：

当前的高通量全基因组DNA序列拼接领域面临很多困难和挑战，主要包括拼接过程中内存开销大、拼接时间长以及拼接结果的准确度不高等问题。随着第三代测序技术的出现，高通量全基

【作者】

：

张峰

【机构】

：

国防科学技术大学

【出处】

：

国防科学技术大学

【发表日期】

：

2013年期

【关键词】

：

DNA序列拼接并行算法大规模并行图处理三代测序数据寻径

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

当前的高通量全基因组DNA序列拼接领域面临很多困难和挑战，主要包括拼接过程中内存开销大、拼接时间长以及拼接结果的准确度不高等问题。随着第三代测序技术的出现，高通量全基因组测序技术产生大量的具有不同特征的序列，这就对序列拼接技术提出了更多的挑战。本文即是从上述问题出发，研究序列拼接并行算法和新型序列拼接方法的关键技术，希望在保证序列拼接准确度的前提下，能够进一步提高拼接的时空效率。主要工作包括以下3个部分。　　首先，SGA（String Graph Assembler）是当前国际上的一种主要面向二代测序数据的新型序列拼接理论工具，它的内存开销更小，但时间开销较大，其中构建索引占据了60-70％的运行时间。针对这一问题，本文首先证明了基于SGA方法的序列拼接问题是一个NP完全问题，然后设计了一种混合多进程和多线程构建索引的并行算法，并基于不同规模数据集分别在普通机群和天河2号上进行了性能测试。针对小规模数据，优化后的索引构建时间缩短了2/3，中等规模数据缩短了1/3，而且算法具有良好的可扩展性和可移植性，在天河2号上测试获得了更高的加速比。该算法在保证序列拼接准确度的前提下，提高了序列拼接的时空效率，得到了华大基因等生物领域专家的使用和认可。　　其次，由于二三代测序技术各有利弊，当前国际上提出了一种“混合纠错拼接”方法，希望充分利用两种数据优势，达到更好的拼接效果。但在具体应用中这种方法存在巨大的内存开销。针对这一问题，本文分析了内存开销所在，并根据天河2号体系结构的特点设计了针对性的解决方案。一方面利用Global Array聚合超级计算机的大量节点内存，将数据和计算分而治之；另外一方面设计了进程级并行优化方法，在提高程序扩展性的同时缓解了单节点的内存压力。并将程序移植到天河2号超级计算机上进行测试和程序优化，保证了华大基因研究院的复杂植物土瓶草全基因组序列拼接项目的顺利完成。　　最后，考虑到“混合纠错拼接”方法内存开销较大，本文设计了基于三代测序数据寻径的新型混合序列拼接算法，重新整合二三代混合序列拼接的应用方式，利用二代短序列拼接构图，三代长序列寻径解图。这样，在充分利用了不同数据的优势的同时，又避免了可能引起大内存开销的纠错环节，并基于大规模图处理框架Pregel实现了这一“免纠错”的新型混合序列拼接算法，实验结果表明，对于数据规模大、复杂程度高的全基因组混合序列拼接问题，本文提出的方法能够有效降低内存开销，经过处理后得到的Contig数量减少了26.00%，ContigN50提高了49.16%，E-size提高了50.76%，表明Contig序列长度更长，拼接更加完整。

其他文献

基于点采样曲面的造型研究

三维获取的新技术引发了曲面表示形式的新需求,直接使用点集表示曲面吸引了越来越多学者的注意,该文正是研究基于曲面的点集表示的一些算法.对于某种曲面表示形式,一个完整的

学位

曲面的表示形式点采样曲面曲面重构隐式曲面曲面的微分性质MLS投影骨架抽取

基于WEBGIS的工程项目管理系统

地理信息系统(GIS)正在逐渐深入到许多的领域中，而计算机网络的迅速普及又加快了传统GIS向网络GIS转变的步伐，GIS与网络技术的结合是当前GIS研究领域的重要方向，构造分布式地理

学位

地理信息系统信息管理系统J2EEWEBGIS

函数式并行程序语言研究

当前,计算机硬件系统正朝着并行化与异构化的趋势发展。继多核微处理器普及之后,图形处理器GPU、数字信号处理器DSP、FPGA等多种硬件加速设备被越来越多地应用到计算机系统。

学位

并行程序语言函数式语言流驱动模型自动并行化运行时系统

多核处理器事务级模型多视图协同验证方法研究与实现

信息技术的不断发展,尤其是大数据时代的到来,需要计算机提供更加强大的数据处理能力。集成电路工艺的进步,使片上处理器的多核架构成为主流,但设计验证问题却日趋严峻。统计

学位

多核处理器事务级模型多视图协同验证So CLib平台

数据挖掘技术在化工产品配方优化中的应用

本文针对化工工业中所采集的数据特点,对数据挖掘技术在化工产品配方优化设计中的应用进行了研究。通过研究,对数据预处理阶段的空缺值填充、噪声数据的识别和修正、主要成分

学位

数据挖掘BP 神经网络遗传算法数据预处理配方优化

MPLS子网带宽管理系统的设计与多类型客户端实现

Internet 近年来以前所未有的普及速度迅速在全球获得发展,逐渐成为一种面向话音、视频、数据和多媒体应用等多种业务的综合媒体。然而,传统IP 网络由于其尽力而为(Best effo

学位

多协议标签交换流量工程IP 服务质量服务等级

个性化E-Learning环境中的智能用户建模技术研究

本文主要对智能用户建模(UM,User Modeling)这一个性化技术中的核心问题进行研究.目的在于构建合理、有效的数学模型来刻画E-Learning中复杂的用户行为,对学生的学习兴趣和状

学位

用户建模案例推理协同过滤扩散激活分布式哈希表

基于ECA规则的CRM系统及其冲突管理机制的研究

客户关系管理CRM作为一个计算机技术与先进管理理念相结合的产物,近年来得到了快速发展,并成为研究热点之一.目前相关的研究工作主要集中在构建客户行为模型和研究数据挖掘算

学位

客户关系管理ECA规则柔性冲突管理元动作

基于SNMP的网络设备Agent模拟器设计与实现

当前网络管理已经成为保证网络正常运行的重要应用。但是在网络管理的学习实验中,一般通过搭建网络来提供实验环境,但是这样的实验环境不仅成本高而且难于管理。因此本文将构

学位

网络管理SNMPAgent模拟

基于6 Sigma和KM的流程自优化技术研究

近年来,为了适应日趋激烈的竞争环境,国内外的企业都非常流行业务流程重组(BPR),重新设计其组织管理模式。BPR强调的是流程的集成和最优运行。同时,作为实现业务流程集成的有

学位

业务流程重组工作流技术6 sigma知识管理

高通量全基因组DNA序列拼接的并行算法关键技术研究

与本文相关的学术论文