论文部分内容阅读
本文系统地提出了一种用于完全基因组上基于序列互信息的距离在构建脊椎动物进化史中的应用。传统的序列距离要求进行序列比对,而在整个基因进化史中,诸如重排列的事件破坏了全长比对。并且,目前还没有用于完全基因组进化研究的统计模型。因此,现有的工具和方法诸如多重序列比对和各种序列进化模式不能直接应用于完全基因组上。当前,一些用于完全基因组的不需序列比对的距离已被发展起来,并用于物种进化的分析。在本文中,我们提出了一种新的基于序列互信息的距离。该距离不需要序列比对,并且是基于完全基因组上DNA序列或蛋白质序列的组分向量的。本论文中,我们首先利用互信息定义了一距离,并从数学上给出了严格证明。接着,通过使用完全线粒体基因组,我们将该距离应用于分析64种脊椎动物在进化上的关系,得到了这些物种的系统发育树。该树显示这些线粒体基因组被区分成三个主要的群组。其中,一个群组对应于哺乳类,一个群组对应于鱼类,另外一个群组对应于古生物类(包括鸟类和爬行类)。
基于我们新的距离建立的树的拓扑结构与当前广泛认同的脊椎动物的系统发育树是吻合的。