基于欧拉路径的并行DNA序列拼接

来源 :哈尔滨工业大学 | 被引量 : 4次 | 上传用户:whlyxyx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
DNA序列拼接是基因组测序的核心问题之一。从1977年Sanger测序技术发明开始,到2005年第二代测序技术问世这段时间,DNA测序主要采用Sanger测序技术。Sanger测序技术测得的DNA片段长度能达到1000bp,并且准确率能够达到99.999%。Sanger测序技术得到的DNA片段通常用交叠-排列-生成一致序列算法进行拼接。 与第一代测序技术相比,第二代测序技术测得的DNA片段具有长度较短、错误率较高以及通量大等特点。针对这些序列的特点,第二代测序技术当前有三种拼接策略:贪心算法,交叠-排列-生成一致序列算法,以及基于de Bruijn图的欧拉路径算法。这三者中前两者需要计算所有DNA片段的共有序列,具有较高的时间复杂度。基于de Bruijn图的欧拉路径算法通过将read拆分为k-mer将DNA拼接问题转换为求欧拉路径问题。欧拉路径问题有线性时间算法。 本文采用欧拉路径算法作为作DNA序列拼接算法。第二代测序技术的通量很高。第二代测序技术在一次运行能产生几G字节的read数据,基于de Bruijn图欧拉拼接算法将面临空间的瓶颈。本文描述一个基于de Bruijn图的并行拼接算法,该算法通过将由read拆分产生的k-mer分布存储在多个进程的哈希表中,并对k-mer编码降低内存消耗。DNA拼接并行执行,并通过发送和接收数据包在各个拼接进程之间共享数据。实验结果表明,该并行拼接算法具有近似线性的时间复杂度与空间复杂度,因而具有良好的可扩展性,能够解决较大规模基因组的序列拼接问题。
其他文献
若(Q,(?))是一个拟群,我们可以在集合Q上定义6个二元运算,(?)(1,2,3),(?)(1,3,2)(?)(2,1,3),(?)(2,3,1),(?)(3,1,2),(?)(3,2,1)如下: a(?)b=c当且仅当a(?)(1,2,3)b=c, a(?)(1,3,2)c=b, b(?)(2,1,3)a=c,b(?)(2,3,1)c=a, c(?)(3,1,2)a=b, c(?)(3,
学位
本文采用熔体快淬、高能球磨、热压的方法制备出纳米复合磁体(Nd10.5Pr2.5)Fe80Nb1B6/FeCo,研究了磁体软磁相质量百分比、晶粒尺寸与磁性能的关系,对晶化相变过程的热力学性质、反磁化过程的形核、自钉扎作用以及弱交换耦合作用进行了分析讨论。 高能球磨使粉末颗粒细化和均匀化,同时增加系统的能量,在晶化过程中提高了晶化的形核率,热压也具有提高晶化形核率的作用并抑制原子的长程扩散
学位
新的宇宙物质组成改变了人们的旧宇宙观,也为人类探索宇宙留下了很多的悬念,从而促使人们进行新的思考。暗物质和暗能量也成为现代物理学和宇宙学中最活跃的领域之一,黑洞作为暗物质和暗能量的一种模型具有很重要的研究价值。根据著名的无毛定理,鉴于热力学描述的物理规律是不依赖于系统结构的细节,人们把黑洞等效成一个热力学系统,从而建立了黑洞热力学。近几年来物理学家们把注意力集中在各种类型黑洞的热力学研究上,希望通
学位
近年来建立的各种t-模基模糊逻辑形式系统,其对应的代数结构均是某种特殊剩余格.随着模糊逻辑形式系统的深入研究,带附加否定算子、?算子的模糊逻辑系统相继提出?如SBL?, MTL?, MTL??,这些带附加算子的逻辑系统自然与带附加算子的剩余格相对应.此外, Rough集理论也涉及到带附加算子?如拓扑算子、内部算子、外部算子?的剩余格.本文从剩余格的基本结构出发,系统研究各种带附加算子的剩余格及其滤
学位
本论文主要考虑了关于椭圆方程的两大内容,第一部分主研究了散度型二阶线性椭圆方程的Dirichlet问题解二阶导数的Hp有界性,其中lu= -div(AVu)+Vu,分别讨论了当是C2。区域和Lipschitz区域两种情况;第二部分讨论了P—Laplace方程和散度型拟线性二阶椭圆方程的解的局部有界性和Holder连续性。本论文共分五章。 第一章中,我们主要得到了薛定鄂方程解的正则性的重要理,
学位
MSTN是由组织细胞分泌的一种功能性糖蛋白,又称之为肌肉生长负控因子,属于TGF-β超家族,对肌肉生长起到负调控的作用。自然界MSTN基因突变的小鼠会出现双肌表型,该基因剔除的小鼠肌肉组织重量增加2-3倍。由于MSTN的重要性以及其在动物育种中的潜在应用前景日益得到动物育种学家的关注,生产上可以通过抑制MSTN的活性,提高养殖品种的肌肉含量,促进养殖品种的生长。 由于鱼类在系统发生过程中,有
学位
雨生红球藻(Haematococcus pluvialis)是一种单细胞绿藻,在多种逆境胁迫条件下能够大量合成并迅速积累具有重要价值的次生代谢产物——虾青素。诱导子能促进许多陆地植物细胞次生代谢产物的合成,但诱导子对藻类,特别是雨生红球藻中虾青素含量的影响还未见相关报道。因此本实验研究了不同质量浓度的诱导子甲基茉莉酸(MeJA)、花生四烯酸(AA)和硫酸铈铵(CAS)对雨生红球藻细胞生长和虾青素含
学位
大黄鱼(Larimichthys crocea)作为我国重要的经济海洋鱼类,目前面临严重的种质退化现象,而通过建立大黄鱼肌肉组织的cDNA文库,开展EST测序分析,可能在短期内获得大量大黄鱼肌肉组织的功能基因表达信息,这些数据为进一步筛选和克隆大黄鱼肌肉特异性表达基因提供了平台。 本实验以大黄鱼肌肉组织为材料,利用Creator Smart cDNA Library Construction
学位
本文讨论了广泛用于描述种群模型的自变量分段连续型微分方程(EPCA)的解析解和数值解的全局稳定性。全局稳定性分析具有重要的理论价值和实践意义。 第一部分回顾了一些基本概念,包括:稳定性、振动性、全局稳定性、周期解和有界性。 第二部分讨论了在常系数和变系数的情况带有多个自变量的EPCA的全局稳定性。全局稳定性条件得到了本质的改进。指数型Runge-Kutta方法应用于求解相应于这类模型的
学位
本文主要研究了随机延迟微分方程数值方法的相容性和收敛性。作为重要数学模型的随机延迟微分方程广泛应用于经济学、生物学、医学等领域。由于很难获得随机延迟微分方程的显示解,构造适当的数值方法和研究数值解的性质成为既有重大理论意义又有实际价值的研究课题。 第一章介绍了本文的主要研究工作。 第二章叙述了随机积分和伊藤—泰勒展开的基本理论知识。 第三章是本文的主要研究内容。首先,回顾了随机延
学位