论文部分内容阅读
随着基因测序在工业中的广泛应用以及以高通量、短序列、覆盖度高、测序引入错误等为特点的第二代基因测序仪的大量使用,需要进行处理的基因组测序数据常常长达数十亿碱基对,现有的全基因组DNA序列拼接技术通常不能胜任拼接工作。人们对序列拼接技术这一生物信息学领域最重要的研究课题进行广泛而深入地研究,以实现海量基因组序列拼接。当前,基因测序技术主要是基于图论的算法,其中最常用的是基于De Bruijn图的拼接算法。针对海量的基因测序数据,构建分布式的De Bruijn图,实现基因拼接的并行化,可以有效的解决因数据量大而造成计算过程中内存资源不足的问题,也能合理提高拼接速度,缩短测序的时间周期,降低测序成本,优化拼接质量,以应对大规模应用的要求。因此,基于De Bruijn图,针对大规模基因数据序列拼接的并行化研究具有重大的理论和实践意义,同时也是研究的热点。本文以生物的基因序列数据为研究对象,提出了采用图论的方法和并行计算技术,研究基于De Bruijn图的快速、高效和可扩展的并行基因序列拼接算法。作者的主要研究工作如下:(1)阐述了应用于基因测序技术中的基本计算模型(OLC图模型和DeBruijn图模型)的一些基本概念与相关算法,其中重点研究了具有参考对比价值的YAGA算法。(2)本文提出了一种加速效率显著、扩展性能良好的并行拼接算法实现DeBruijn图拼接。在构图方面,改进YAGA图形的存储模式,使用更少的存储空间。在图化简上,借鉴velvet对tip结构的处理原则,去除长度小于2k的链。运用深度优先搜索算法遍历图形,大量减少处理器之间的通信以及计算节点的移动,降低拼接过程中时间、空间消耗。在顶点数据处理方面,依据频度原则,去除阈值以下的顶点,减少了图中顶点的数量,降低了测序错误带来的错拼问题,优化了拼接结果。(3)在算法性能测试阶段,采用四组不同规模的生物基因数据从执行时间、加速效率和可扩展性等方面对算法各个模块以及整体性能进行测试与验证。实验结果表明,本文的拼接算法加速效果明显,扩展性良好,尤其对于大型基因组的拼接。