基于分布式计算的大规模多序列比对研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:Lynn_lin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多序列比对(Multiple Sequence Alignment,MSA)是分析生物序列及其结构、功能,进化分析以及其他生物信息学中基础领域的关键步骤。随着下一代生物测序规模的大幅高,现有的多序列比对方法在大规模数据下已经体现出显著的性能瓶颈,甚至无能为力。针对该问题,本文出依据HDFS数据存储系统和Spark框架来加速多序列比对算法用于完成分布式多序列比对任务。本文完成了如下几个方面的工作:实现用于大规模蛋白质多序列比对的Smith-Waterman算法和用于大规模核酸多序列比对的后缀树后缀数组算法。Smith-Waterman算法是利用动态规划思想计算得分矩阵的局部最优比对算法,其比对结果质量高但较耗内存。后缀树后缀数组算法具有O(??????)的时间效率,比对质量可靠,且空间复杂度可通过前缀倍增优化到O(?)。该算法与Smith-Waterman算法的空间复杂度都能够依靠HDFS分布式存储系统进一步降低,具备稳定高可用性。针对Spark集群环境做深入的并行优化,充分发挥其弹性负载、内存均摊和分布式存储的优势。在负载均衡方面,通过自适应算法来调整“大变量”的广播,调整RDD算子中的块数量,高网络吞吐性能。在内存优化方面,优化数据结构和序列化对象调节内存回收和缓存大小。在分布式存储方面,利用HDFS存储大规模序列高容灾性。在工程实现方面,采用面向对象设计,轻耦合封装,利于日后的维护和算法扩展。将单机多线程环境下和集群环境下的一系列不同规模的蛋白质及核酸序列数据做横向对比,将目前最优秀的多序列比对软件如MUSCLE等与本文工具一起做纵向对比。结果表明,无论是在时间效率、内存效率、加速比还是结果质量上,基于Spark计算平台的大规模序列比对算法与其他各算法相比都有着更突出的表现,证明了本文工作的重要价值。最后,已将本文工作连接高性能分布式集群部署于网站上,供科研人员自由访问。
其他文献
GB1495《汽车加速行驶车外噪声限值及测量方法》标准(报批稿)与现行标准GB1495-2002相比,改变了测量方法及限值体系,本文通过比对依据新标准及现行标准的测量结果差异获取GB1
无网格方法是求解微分方程定解问题的一种新的数值方法,它采用基于点的近似,可以彻底或部分地消除网格,因此在处理不连续、大变形、移动边界等问题时可以完全抛开网格重构,不
泡菜是一种乳酸发酵制品,含有大量的乳酸菌,而乳酸菌是参与人体肠道微生态平衡的主要菌系,它对人体具有各种保健功能。我国泡菜产地主要在四川地区,其独特的地理环境和气候条
本文系统论述了英语词汇的重要性、词汇量对各种语言技能的影响、词汇的遗忘规律、记忆方法和大学英语的词汇教学方法
在自然降雨条件下研究澄江尖山河流域4种不同土地类型输出地表径流的TN、TP、NO3^--N、NH4^+-N及溶解态磷(DP)的特征,并利用TN/TP和Inorganic-N/DP、NO3^--N/DP、NH4^=-N/DP等比率对4
以色彩元素和图形元素为主的背景调整,以大小、位置、形态、导向为主的图片调整以及文字调整,都是调整杂志版式编排的有效方法。从细处入手,通过变化调整,可达到杂志整体编排
我国目前处于社会主义初级阶段,这是决定我国消费的基本因素。改革开放以来,我国政治、经济、社会状况发生了巨大变化,极大地影响了消费状况的演变。这些因索主要是:
波形钢腹板PC组合箱梁采用波形钢板腹板取代传统混凝土腹板,钢材优异的抗拉性能有效解决传统混凝土腹板开裂的问题,且自重比钢筋混凝土轻,使该类桥梁具有很大的跨越支撑能力。随着跨径增大,其在桥梁技术和应用上的经济效益优势越加明显。近年来,多跨波形钢腹板箱梁桥的建设和改造步伐发展的十分迅速,其受力明确、轻型美观,具有良好的设计和推广应用的前景。本文以浙江省文成至泰顺(浙闽界)公路第WTZX-2标段试验检测