论文部分内容阅读
进化树(phylogenetic tree)是用于描述基因或者物种之间进化关系的树型拓扑结构,又称为系统发生树。进化树的构建是根据基因序列信息推断物种的衍变史,这有助于了解物种的进化规律和进化机制,进而让人们了解基因功能、疾病关系以及生物进化规律。近年来,进化树的构建研究已经成为生物信息学领域重要课题之一。随着序列数目的日益增加,海量的数据对进化树的构建成本提出了严峻的挑战,亟需能够处理大规模数据的构建方法。本文探讨了有关进化树构建的几个方法,针对大规模建树存在时间代价过高的问题,提出了利用Hadoop并行计算框架构建大规模进化树的新方法,主要完成的工作为: 本文介绍了几种主流的大数据处理平台,对Hadoop的分布式文件系统的核心架构和MapReduce分布式编程模型的原理进行了详细介绍。此外本文还对基因序列数据的经典比对算法和建树算法进行了详细的讲解。在序列比对方面,本文详细介绍了基于动态规划的双序列比对算法,ClustalW算法和多序列星比对算法。在进化树构建问题上,本文详细介绍了距离法、最大简约法、最大似然法三种经典的建树方法,通过剖析算法的执行流程和比较不同算法的优劣性,从而设计出适合Hadoop计算框架特性的序列分析方法。 基因序列比对通过对基因序列的比较找出序列之间的相似性和同源性,是基因同源性分析的基本手段,同时也是构建进化树的基础。随着基因序列数目的日益增长,基因多序列比对算法同样面临计算时间开销过高的问题。本文提出了一种基于hadoop的大规模DNA序列比对方法,实现基因的多序列比对。根据序列星比对算法内在并行性,利用Hadoop并行计算框架设计出了一种快速多序列比对方法。通过与序列分析领域的常用软件进行对比实验,证实了并行多序列比对算法的优越性。 现有的进化树构建方法都存在着计算复杂度过高的问题,因此经典的建树方法在实际的应用中很难推广。通过分析进化树构建过程与聚类过程之间的内在联系,本文提出基于hadoop的大规模DNA进化树构建方法。利用Hadoop并行计算框架实现了一种经过聚类预处理的大规模进化树构建算法。通过与进化树构建领域的常用软件进行对比实验,证实了并行进化树算法的优越性。此外,本文设计了基因多序列比对到进化树构建的一站式处理软件,实现了多序列比对和进化树构建的衔接,使得研究人员能更加方便快捷的提交序列数据并分析出序列的进化顺序和进化关系。