论文部分内容阅读
氨基酸组成是一个古老又新颖的话题。在本文中我们基于氨基酸组成较系统地探索了翻译和突变过程的机理。生命过程中的多个理论,如达尔文的进化理论、木村资生的中性学说,尤其是能效性准则被应用到认识这些生命的过程中来。所谓能效性准则是指生命过程应该遵守最大效率、最小花费的原则。我们基于该理论分别在tRNA和氨基酸的相互关系、氨基酸组成在蛋白质进化过程中的变化以及与其他关联因素的比较中去认识相关生命过程的机理。随着生命科学理论与技术的发展,越来越多翻译过程的参与者被研究者所认识到,但它们之间怎么相互合作并共同决定翻译效率还缺乏细节的认识。在此工作中,我们推断最基本的翻译元件tRNA和氨基酸应该有共进化关系且该关系有益于翻译过程中的翻译效率最大化和花费最小化。在我们调查的古细菌、细菌和真核生物的410个基因组中有310个的tRNA基因拷贝数和氨基酸组成之间有显著的共适应关系,表明能效最大化构成了蛋白质翻译过程中普遍的选择压力。另外,快速生长和较大的细菌内有更好的适应性确定了这种选择压力的存在。在同一物种内,高表达的蛋白和应激表达的蛋白具有更高的共适应强度。更好的共适应关系能通过加快某些蛋白质的翻译的方式来加速细胞的生长。我们通过实验手段操作tRNA基因拷贝数来优化了增强绿色荧光蛋白EGFP和大肠杆菌tRNA基因集的共适应关系从而提升了翻译速度。作为一个新确定的翻译速度调控机制,反映翻译速度的共适应关系不仅仅加深了我们对翻译过程的理解,同时也提供了一个简便可操作的方法来提高蛋白质翻译速度和增加产量。真核生物中曾有关于蛋白质氨基酸组成和进化率之间的相关性不一致的报道。而细菌基因组鲜少有针对氨基酸组成如何与进化率相互作用的报道。因此,我们构建了细菌内的氨基酸组成和进化率之间的线性回归模型。273个细菌物种内的同源蛋白氨基酸组成能解释平均21.5%的进化率的偏差。在5个模式生物内,氨基酸比蛋白质丰度、优化密码子使用对进化率的贡献率更多。物种间每种氨基酸组成对进化率的贡献程度各不相同。基因的GC含量越接近其最大值或者最小值,氨基酸含量与蛋白质进化率的相关性越好。由GC丰富的密码子编码的和由AT丰富的密码子编码的氨基酸其贡献对进化率的效应可被分成两组。我们进一步观察到越高的稀有氨基酸使用会导致越低的进化率。总之,氨基酸组成在细菌物种内影响进化率且反过来又受GC含量的影响。理解蛋白质的进化是一个重要的课题。GC(AT)丰富的物种内倾向于含有较多的GC丰富的密码子。然而,GC含量并不是影响氨基酸频率变化的一个通用因子。一个普遍接受的观点认为一些氨基酸最近才被募入编码密码子表,而这些新氨基酸会变得越来越普遍。然而,这个近中性模型受到突变选择平衡的质疑。因此我们进一步比较了 GC含量和假定的氨基酸获得与失去的募入顺序。必需基因是假定的进化保守基因,比非必需基因要保守。这种基因同时存在于最后共同祖先和现存的生命中。因此,我们分析了必需蛋白的氨基酸组成。为了获得氨基酸组成的普遍趋势,通过氨基酸组成比较了假定存在于最后共同祖先内的同源蛋白内的氨基酸获得和失去,这种获得和失去受GC含量影响显著。统计检验表明GC含量对氨基酸组成比氨基酸募入顺序对其有更强效应。GC含量是一个决定能效性的不可忽略的因素,可以导致进化过程中氨基酸的获得和失去产生偏差,并最终影响蛋白组中的氨基酸组成。我们的结果支持了 GC含量比氨基酸募入密码子表顺序对同源蛋白进化中氨基酸的获得和失去有更强效应的观点。综上所述,本课题的分析基于基因组、转录组、蛋白组等数据结合优化密码子使用指数、进化率、COG分类、KEGG通路等围绕氨基酸组成系统地研究了翻译过程和突变过程的机理。根据氨基酸组成与翻译过程因子tRNA基因拷贝数设计了可用于优化翻译效率的指数TAAI并通过湿实验在大肠杆菌内验证了 EGFP的表达。基于多个物种的分析比较了氨基酸特征在氨基酸进化过程中的效应,并明确在能效性准则下进化突变受GC含量等的影响的结论。总之,本课题基于进化基因组学、比较基因组学等得出的最终结论可以帮助我们深入地认识氨基酸组成涉及的翻译和转录过程的机理。