基于三参数模型的进化树算法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:oyphone
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多种生物克隆实验结果说明,存在于细胞核染色体中的DNA序列包含了该生命体的全部信息。生物序列进行序列比对后,所得结果包含了序列之间的关系和进化的信息,利用这些信息可以得到各个序列在进化过程中的亲疏、远近关系[1]。进化树就是用来描述序列间进化关系的一种树状拓扑结构。其中,树的叶子结点代表各种生物序列,树枝的长度表示生物间的进化距离。  构建一个可靠的进化树不仅可以推测出生物的进化过程,估计现存的各类生物间的进化关系,并且对于生物医药学、基因组学和病毒学等其他领域的研究也具有重要意义。目前常见的进化树构建方法有三类:基于距离的方法、基于特征的方法和基于概率论的方法。距离矩阵法具有较为完善的统计理论基础,算法简单,目前应用最为广泛。其中,邻接法又因其具有较小的时间复杂度,且所获得的进化树总是替代总数为最小的树而优于其他的距离矩阵算法。  距离矩阵的构造是距离矩阵法的基础,序列间的进化距离估计越精确,构建的进化树才会更准确。因此选择正确的进化模型来构建距离矩阵成了进化树研究的重要内容之一。UPGMA算法[2]和邻接法[3]都是传统距离矩阵法,两者都采用了Jukes-Cantor单参数模型来估算序列间的进化距离,该模型认为4种核苷酸A,T,C和G间的相互替换的速率相等。但在大多数DNA序列中,通常核苷酸转换的比率要高于颠换的比率,而且真实的核苷酸替代模型要比Jukes—Cantor单参数模型复杂得多。因此在实际应用中,用Jukes-Cantor单参数模型来估计序列间的进化距离并不理想。邻接法除了进化距离的估计影响其准确性外,它的聚类过程也是影响其准确性的一个重要方面。由进化模型估计得到距离矩阵后,邻接法对其进行聚类计算来完成进化树的构建,它要求在每一次聚类时尽量使得当前树的所有分支长度之和最小。这个聚类过程是一个贪心过程,它求得的仅是局部最优解,并非整体最优解,求得的邻居不一定是真正的邻居。也就是说邻接法所构建的进化树并不总是真实的进化树,而有可能只是真实进化树相近似的拓扑结构。  为提高邻接法构建进化树的准确性,本文在基于三参数模型的进化树构建算法(KTPMPT)中采用了Kimura三参数模型[4]来计算序列之间的进化距离,并给出了新的改进算法。论文中通过计算机模拟法,对KTPMPT算法、UPGMA算法和邻接法的准确性进行了对比分析,实验结果表明KTPMPT算法明显优于UPGMA算法和邻接法。在基于最小生成树的进化树构建算法(MSTPT)中,在由三参数模型得到的距离矩阵的基础上,应用Prim算法求出最小生成树,然后用这棵最小生成树来指导邻接法在建树过程中寻找最佳合并的邻居节点进行聚类。文中通过实例来说明MSTPT算法的算法过程,其计算结果与真实进化树拓扑结构完全一致,修正了邻接法生成的进化树中原有的局部拓扑错误。这可以说明MSTPT算法能够在一定程度上遏制邻接法的贪心搜索特性,构建更符合物种间进化关系的进化树。  本文采用三参数模型计算进化距离,提高了距离矩阵的质量,这对于高度依赖距离矩阵的算法来说是很有意义的,距离矩阵质量的提高有利于得到更准确的进化树。用最小生成树来指导邻接法的聚类建树是一个全新的尝试,在一定程度上消除了邻接法的贪婪特性,最小生成树在建树算法中的应用还有更进一步的研究空间。
其他文献
随着使用ARM核心处理器作为解决方案的嵌入式智能产品越来越多,基于ARM核心处理器的嵌入式软件调试方法,在开发过程中日益受到人们的关注。ARM公司新近推出的ARM11核心处理器
随着互联网的飞速发展,各种新应用不断涌现,用户数量急剧增加,网络流量呈现爆炸式的增长,网络拥塞问题变得越来越严重。网络发生拥塞会导致吞吐量急剧下降、数据包大量丢失以
随着软件和网络应用的迅速发展,数据库的应用越来越广泛,发挥的作用也越来越重要,数据库管理系统已经成为企业的核心IT系统,大数据量、高并发度也越来越成为企业业务处理系统的首
在网络安全通信问题中,抵御拜占庭攻击越来越受到广大科研究工作者的关注,并且成为当前研究的热点问题。当网络中存在这种攻击时,攻击者不仅想得到一些有用的消息,还想通过多
随着信息科技的快速发展,人类的生活发生了翻天覆地的变化。通过智能科学在生活中的普遍应用,人们可以随时享受智能科学带来的方便和快捷。在智能科学中,最具有代表性的就是机器
H.264是一种高性能的视频编码方法,但其在运动估计、帧内预测、插值、变换和算术编码等方面具有很高的计算复杂度。根据其内在的并行度,通过分析并行化的瓶颈所在,合理地设计
团分划问题的目标为将给定图分划为给定大小的完全图集合。在计算生物学的聚类分析等中有着广泛的实际应用场合,团分划问题属于NP-完全问题,因此除非P=NP成立,我们很难找出一个
SIP(Session Initial Protocol)是伴随着互联网的发展而诞生和发展的,并以其简单易用以及良好的扩展性和开放性等优势,已发展成为下一互联网至关重要的应用协议。SIP本身缺乏
周期行为分析方法是通过比较程序不同程序段的特征信息分析程序相似性的方法。由于划分到同一周期行为的程序片段具有相似性能特性和资源需求,因此,周期行为分析已广泛应用于
商业智能工具迅速发展,多维查询技术日趋成熟,在线联机分析系统查询效率的提升成为急需解决的问题。聚集技术是提升在线联机分析系统性能的关键技术之一。在分析达梦聚集技术