基于hadoop的大规模DNA进化树构建算法

来源 :厦门大学 厦门大学 | 被引量 : 0次 | 上传用户:wsgray
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
进化树(phylogenetic tree)是用于描述基因或者物种之间进化关系的树型拓扑结构,又称为系统发生树。进化树的构建是根据基因序列信息推断物种的衍变史,这有助于了解物种的进化规律和进化机制,进而让人们了解基因功能、疾病关系以及生物进化规律。近年来,进化树的构建研究已经成为生物信息学领域重要课题之一。随着序列数目的日益增加,海量的数据对进化树的构建成本提出了严峻的挑战,亟需能够处理大规模数据的构建方法。本文探讨了有关进化树构建的几个方法,针对大规模建树存在时间代价过高的问题,提出了利用Hadoop并行计算框架构建大规模进化树的新方法,主要完成的工作为:  本文介绍了几种主流的大数据处理平台,对Hadoop的分布式文件系统的核心架构和MapReduce分布式编程模型的原理进行了详细介绍。此外本文还对基因序列数据的经典比对算法和建树算法进行了详细的讲解。在序列比对方面,本文详细介绍了基于动态规划的双序列比对算法,ClustalW算法和多序列星比对算法。在进化树构建问题上,本文详细介绍了距离法、最大简约法、最大似然法三种经典的建树方法,通过剖析算法的执行流程和比较不同算法的优劣性,从而设计出适合Hadoop计算框架特性的序列分析方法。  基因序列比对通过对基因序列的比较找出序列之间的相似性和同源性,是基因同源性分析的基本手段,同时也是构建进化树的基础。随着基因序列数目的日益增长,基因多序列比对算法同样面临计算时间开销过高的问题。本文提出了一种基于hadoop的大规模DNA序列比对方法,实现基因的多序列比对。根据序列星比对算法内在并行性,利用Hadoop并行计算框架设计出了一种快速多序列比对方法。通过与序列分析领域的常用软件进行对比实验,证实了并行多序列比对算法的优越性。  现有的进化树构建方法都存在着计算复杂度过高的问题,因此经典的建树方法在实际的应用中很难推广。通过分析进化树构建过程与聚类过程之间的内在联系,本文提出基于hadoop的大规模DNA进化树构建方法。利用Hadoop并行计算框架实现了一种经过聚类预处理的大规模进化树构建算法。通过与进化树构建领域的常用软件进行对比实验,证实了并行进化树算法的优越性。此外,本文设计了基因多序列比对到进化树构建的一站式处理软件,实现了多序列比对和进化树构建的衔接,使得研究人员能更加方便快捷的提交序列数据并分析出序列的进化顺序和进化关系。
其他文献
本文结合北京朝批商贸有限公司数据仓库项目的实例,从应用角度分析并解决了企业数据仓库从需求分析、建模到实施的关键技术。同时阐述了如何设计并实现一个灵活且具有较强通用
三维重建技术一直是医学图像可视化的一个重要研究方向,备受计算机研究人员和医务工作者的关注。通过对重建后的三维图像进行旋转,测量,切割等操作,可以仿真医生手术的整个过程,因
层次分析法(The Analytic Hierarchy Process简称AHP)是由美国运筹学家,匹兹堡大学萨蒂(T.L.Saaty)教授于二十世纪七十年代提出来的,它是一种层次化、结构化、定性和定量相结合的
基于构件的软件工程(Component Based Software Engineering,CBSE)提高软件生产效率和质量,日益成为软件开发的主流范型,是软件开发实现工程化、自动化从而解决软件危机的现实可
随着无线通信技术的飞速发展,有限的频谱资源面临着枯竭的危险,如何优化通信系统资源配置和提高资源利用效率,一直是通信领域科学家和工程师追求的目标之一。智能天线就是在这一
工作流管理系统是一个软件系统,它完成工作流的定义和管理,并按照在系统中预先定义好的工作流逻辑进行工作流实例的执行。它为企业业务系统提供了一个灵活的软件平台,让企业可以自定义工作流程。随着Web服务的出现和成熟,使得通过网络对异构系统远程调用变得稳定和容易,因此,使用Web服务将原属于工作流管理系统的业务功能实现部分剥离给Web服务的提供方,让工作流管理引擎通过调用Web服务来完成客户定义的工作流的
树木因其对生态环境的重要影响,在整个生态系统中处于重要的地位。由于城市中的树木形态多样、种类繁多,如何自动有效的提取树木信息对于绿色城市管理以及智慧化城市的建设有着
随着计算机技术的迅速发展,计算机应用在各行各业迅速得到普及,人机交流也变得越来越普遍。目前,机械式的人机交互已经不能适应人的需求,新型和谐的人机交互技术(Human-Computer
聚类分析是数据挖掘中的一个分支,模糊聚类是聚类中的重要方法,已经取得了丰富的成果,其中的模糊C-均值(FCM)算法具有良好的性能和广泛的应用价值。然而,FCM算法对初始聚类中心的
随着Web2.0的快速发展,社交网络媒体受到越来越多人的青睐,以新浪微博为例,它已经成为人们生活工作中的一个大众舆论平台,同时,也是主要沟通交流平台。人们可以自由地发表自