论文部分内容阅读
150年前,达尔文发表了他在系统发育学上的著作——《物种起源》,此书极大地改变了当时人们对于物种进化问题的理解。在达尔文的时代,研究系统发生关系的方法多是从生物的表型特征出发来进行物种分类。而近年来,随着分子生物学和生物信息学技术的发展,研究者们开始把目光转向了利用分子序列来进行物种的系统发生学定位,同时,越来越多的证据也表明,分子序列的确比表型更能反映物种之间的进化关系。作为研究对象的分子序列包括DNA序列和蛋白质序列。蛋白质作为有机体行使生物功能的最重要的元件,它们是由20种常见的氨基酸编码组成的长链,蛋白质的结构和功能就取决于这些氨基酸长链。以物种的氨基酸序列为研究数据,采用合适的生物信息学方法,我们就能从这些长链中提取出生物的系统发生信息,进而构建物种的进化树。另一方面,我们知道,20种常见的氨基酸并不是同时出现在生命进化的过程中的。甘氨酸和丙氨酸在进化历史上是最先出现的。随着生物的进化,氨基酸的种类随之增多,氨基酸长链也越来越复杂,氨基酸字母表也越来越丰富。氨基酸字母表的进化带动了蛋白质序列的进化,进而推动了整个物种的进化。
为了研究氨基酸字母表与物种系统发生树之间的关系,我们主要进行了如下几个方面的工作:
首先,我们以CVTREE方法为工具,对E.coli K12的基因组序列进行了统计分析。我们分别统计和比较了E.coli序列中所有出现过的短串的频率和分值的分布,并且对其中筛选出来的计数频率和分值最高的那些短串进行了重点分析。在对短串的计数值和分值的分析中我们发现,单纯统计短串计数值的确无法得到特别有效的系统发生信息,另外,分值最高的最能反映系统发生关系的那些短串恰恰是在包含了几百万个氨基酸的序列中只出现了一次的短串。通过减除随机背景噪声,我们成功地把这些短串从其它众多的计数值也为1的短串中筛选出来。另外,我们采用氨基酸简化字母表对E.coli序列进行简化,然后对简化后的序列进行了类似的统计工作。我们发现,随着序列的简化,出现频率最高的那些短串发生了很大的变化。然而,分值最高的那些短串在简化的过程中却得以保留。也就是说,其中所包含的系统发生学信息在一定程度上得以保留下来。通过这些工作,我们证明了CVTREE方法在挖掘原核生物的系统发生学信息上的有效性,并且证实了采用一定的简化的氨基酸字母表对序列简化之后,其序列中所包含的系统发生信息仍然得以保留。
第二,在本工作中,我们选择了三种氨基酸简化方案,按照这些方案将以原核生物为主的451个全蛋白组序列中的20种氨基酸用N个字母进行替代(N从20减小到2),于是得到简化的蛋白序列。然后以这些序列为数据集,使用CVTREE方法构建系统发生树,可得到一套19个由简化序列得到的系统发生树。最后,我们比较了随着序列的简化,这些树的拓扑结构,各个系统分类层次上物种的分类情况以及其中所揭示的生物学关系的变化。通过这些分析,我们试图找到最优化的简化方案,即一个合适大小的氨基酸字母表,使得所得到的简化的系统发生树与未简化序列的结果相类似。而且在这个过程中,我们可以了解到,区分物种之间的差别所需要的序列复杂度和氨基酸字母表的大小。最后,综合我们的计算结果,我们得出结论:大约需要8种左右的氨基酸来刻画物种之间蛋白质序列的差别。
第三,现今,我们所面临的另一大难题就是生物界的最基本的分类问题。人们对这个问题的认识经历了漫长的历史过程。从亚里士多德时期最原始和直观的动物,植物分类,到后来当人们认识到细菌的等微生物存在的时候,将生物界分成原核生物和真核生物两个大类。到1990年,Carl Woese在他的16sRNA的工作基础上建立起了生物界的三域分类学说。现在,越来越多的古细菌研究证据开始动摇着Woese的进化树,这些研究发现使得人们对三域的分类系统产生了新的质疑。我们的工作也希望在这个问题上给出一些证据。我们从序列的角度出发,对生物的系统发生关系进行研究是基于一个很重要的假设,即亲缘关系越近的物种,其生物序列也越相似。当我们对序列进行简化时,序列会变得越来越相似。于是,在简化的过程中,越早变得无法区分的序列越相似。于是,我们观察在简化序列所得到的进化树中,在古细菌,真细菌,真核三支上出现的分类混乱的现象。越早出现分类混乱的两个类群的生物,我们推测具有越近的亲缘关系。最后,我们的结果表明三域生物序列之间的差异明显,直到氨基酸的种类数简化到3到4种时才出现分类混乱的情况。因此,我们推断,生物界存在着三种不同的生命形式——古细菌,真细菌和真核生物。而这个结论也很好地支持了woese所提出的进化树。
本文各章节安排如下:
1.第一章介绍系统发生学的基本概念,研究方法和现状,以及蛋白质和氨基酸序列的相关背景。
2.第二章介绍了我们工作中所采用的模型和方法。
3.第三章介绍了对E.coli的全蛋白组序列进行系统发生学的统计分析的结果。
4.第四章介绍了采用简化氨基酸序列重建451个物种的系统发生树,并进行拓扑结构和各个物种分类层次的比较工作。
5.第五章给出了本文的总结,以及对将来工作的展望。