使用简化的氨基酸字母表挖掘全蛋白组序列的系统发生学信息

来源 :南京大学 | 被引量 : 0次 | 上传用户:xingchen8888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
150年前,达尔文发表了他在系统发育学上的著作——《物种起源》,此书极大地改变了当时人们对于物种进化问题的理解。在达尔文的时代,研究系统发生关系的方法多是从生物的表型特征出发来进行物种分类。而近年来,随着分子生物学和生物信息学技术的发展,研究者们开始把目光转向了利用分子序列来进行物种的系统发生学定位,同时,越来越多的证据也表明,分子序列的确比表型更能反映物种之间的进化关系。作为研究对象的分子序列包括DNA序列和蛋白质序列。蛋白质作为有机体行使生物功能的最重要的元件,它们是由20种常见的氨基酸编码组成的长链,蛋白质的结构和功能就取决于这些氨基酸长链。以物种的氨基酸序列为研究数据,采用合适的生物信息学方法,我们就能从这些长链中提取出生物的系统发生信息,进而构建物种的进化树。另一方面,我们知道,20种常见的氨基酸并不是同时出现在生命进化的过程中的。甘氨酸和丙氨酸在进化历史上是最先出现的。随着生物的进化,氨基酸的种类随之增多,氨基酸长链也越来越复杂,氨基酸字母表也越来越丰富。氨基酸字母表的进化带动了蛋白质序列的进化,进而推动了整个物种的进化。   为了研究氨基酸字母表与物种系统发生树之间的关系,我们主要进行了如下几个方面的工作:   首先,我们以CVTREE方法为工具,对E.coli K12的基因组序列进行了统计分析。我们分别统计和比较了E.coli序列中所有出现过的短串的频率和分值的分布,并且对其中筛选出来的计数频率和分值最高的那些短串进行了重点分析。在对短串的计数值和分值的分析中我们发现,单纯统计短串计数值的确无法得到特别有效的系统发生信息,另外,分值最高的最能反映系统发生关系的那些短串恰恰是在包含了几百万个氨基酸的序列中只出现了一次的短串。通过减除随机背景噪声,我们成功地把这些短串从其它众多的计数值也为1的短串中筛选出来。另外,我们采用氨基酸简化字母表对E.coli序列进行简化,然后对简化后的序列进行了类似的统计工作。我们发现,随着序列的简化,出现频率最高的那些短串发生了很大的变化。然而,分值最高的那些短串在简化的过程中却得以保留。也就是说,其中所包含的系统发生学信息在一定程度上得以保留下来。通过这些工作,我们证明了CVTREE方法在挖掘原核生物的系统发生学信息上的有效性,并且证实了采用一定的简化的氨基酸字母表对序列简化之后,其序列中所包含的系统发生信息仍然得以保留。   第二,在本工作中,我们选择了三种氨基酸简化方案,按照这些方案将以原核生物为主的451个全蛋白组序列中的20种氨基酸用N个字母进行替代(N从20减小到2),于是得到简化的蛋白序列。然后以这些序列为数据集,使用CVTREE方法构建系统发生树,可得到一套19个由简化序列得到的系统发生树。最后,我们比较了随着序列的简化,这些树的拓扑结构,各个系统分类层次上物种的分类情况以及其中所揭示的生物学关系的变化。通过这些分析,我们试图找到最优化的简化方案,即一个合适大小的氨基酸字母表,使得所得到的简化的系统发生树与未简化序列的结果相类似。而且在这个过程中,我们可以了解到,区分物种之间的差别所需要的序列复杂度和氨基酸字母表的大小。最后,综合我们的计算结果,我们得出结论:大约需要8种左右的氨基酸来刻画物种之间蛋白质序列的差别。   第三,现今,我们所面临的另一大难题就是生物界的最基本的分类问题。人们对这个问题的认识经历了漫长的历史过程。从亚里士多德时期最原始和直观的动物,植物分类,到后来当人们认识到细菌的等微生物存在的时候,将生物界分成原核生物和真核生物两个大类。到1990年,Carl Woese在他的16sRNA的工作基础上建立起了生物界的三域分类学说。现在,越来越多的古细菌研究证据开始动摇着Woese的进化树,这些研究发现使得人们对三域的分类系统产生了新的质疑。我们的工作也希望在这个问题上给出一些证据。我们从序列的角度出发,对生物的系统发生关系进行研究是基于一个很重要的假设,即亲缘关系越近的物种,其生物序列也越相似。当我们对序列进行简化时,序列会变得越来越相似。于是,在简化的过程中,越早变得无法区分的序列越相似。于是,我们观察在简化序列所得到的进化树中,在古细菌,真细菌,真核三支上出现的分类混乱的现象。越早出现分类混乱的两个类群的生物,我们推测具有越近的亲缘关系。最后,我们的结果表明三域生物序列之间的差异明显,直到氨基酸的种类数简化到3到4种时才出现分类混乱的情况。因此,我们推断,生物界存在着三种不同的生命形式——古细菌,真细菌和真核生物。而这个结论也很好地支持了woese所提出的进化树。   本文各章节安排如下:   1.第一章介绍系统发生学的基本概念,研究方法和现状,以及蛋白质和氨基酸序列的相关背景。   2.第二章介绍了我们工作中所采用的模型和方法。   3.第三章介绍了对E.coli的全蛋白组序列进行系统发生学的统计分析的结果。   4.第四章介绍了采用简化氨基酸序列重建451个物种的系统发生树,并进行拓扑结构和各个物种分类层次的比较工作。   5.第五章给出了本文的总结,以及对将来工作的展望。
其他文献
在过去的几十年中,个人通信应用的快速发展。集成电路技术的发展提高了晶体管的速度,现代CMOS工艺的晶体管已经能够应用在毫米波领域,同时CMOS工艺在集成度方面具有很大的优势。
由于在氨基酸、核苷酸以及维生素等重要产品的工业生产中具有巨大的经济价值,谷氨酸棒杆菌一直以来是微生物学家和生物工程学家广泛关注的工业菌株之一。   本论文主要研究
MicroRNAs(miRNAs)在干细胞分化和早期胚胎发育中起着关键的作用,对于miRNA在细胞分化和自我更新的维持上来说,胚胎干细胞是一个非常可靠的研究系统。到目前为止只有少数的胚胎
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
铜锌锡硫硒(CZTS Se)薄膜太阳电池以其原料丰富、成本低、无毒、其光吸收系数高、理论转换效率高、禁带宽度可调等优点,作为新一代化合物半导体薄膜太阳能电池而受到广泛的关
光电子器件的漏电对其性能、稳定性、功耗等方面有着十分重要的影响。寻找漏电流的起源并采取相应的措施加以控制对研制高性能光电子器件具有十分重要的意义。本文从研制高性
学位
本文采用基于第一性原理的Materials Studio软件模拟了在半导体合金材料发展过程中具有代表性的三种材料即GaInAs、GaInNAs和GaInN的一些物理性质,所得结果对工艺的改进具有一
弹尾纲是三大土壤动物类群之一,在土壤生态系统中起着相当重要的作用。本论文从命名,形态学和生态学等方面对弹尾纲进行了介绍。对其中的重要类群—等跳科的历史和主要分类特
由于SOI材料中绝缘埋层(BOX)的存在,使得SOI器件抗总剂量辐射能力不足,并且静电放电问题也较为严重,这两方面问题严重制约了SOI技术在空间环境中的应用。对器件进行总剂量辐射加
学位
学位