论文部分内容阅读
密码子水平的生物信息学分析是研究基因组进化、蛋白质功能以及遗传和环境相互作用等课题中一个的重要环节。本文中,我们从密码子使用模式的比较基因组分析、密码子用法作为构建系统发育树的方法以及基于密码子置换模型的适应性进化检测等三个方面进行了探索。论文的主要内容如下:1.密码子的使用频率并不是完全随机的,而是有一定的偏好性,即有的密码子比起其他同义密码子来说使用频率更高,这种现象在原核、真核生物中都广泛存在。研究不同基因组中密码子使用模式以及影响这种模式形成的内在因素,对于了解基因组特征和分子进化历史事件具有重要的启示作用。我们对同一物种中不同基因组问以及不同物种基因组间的密码子用法进行了一系列对应比较,并且进一步研究了影响密码子使用的因素。●基因或是基因组间密码子使用的差异往往反映了碱基组成的偏好性或是自然选择的强度。我们比较分析了普通小麦(Triticum aestivum)的核基因以及线粒体、叶绿体等细胞器基因组间在密码子偏好性特征和影响因素上的差异。核基因中的GC含量明显高于线粒体和叶绿体基因中的。中性绘图和对应性分析的结果都表明核基因中的密码子使用模式是突变压力造成的,而线粒体和叶绿体基因组中GC含量更加保守,密码子偏好性主要反映了弱的自然选择效应下翻译水平的影响。奇偶原则绘图分析显示在密码子第三位上嘧啶的使用频率高于嘌呤。此外,在线粒体、叶绿体和核基因中分别有11,12和24个密码子被鉴定为最优密码子。以上这些结果表明由于主要承受的进化约束力不同,在线粒体、叶绿体和核基因中的密码子使用也呈现出不同的特征。●我们比较分析了单子叶植物和双子叶植物在密码子使用的模式差异,分别选取了线粒体和核基因作为研究对象。在GC含量方面,双子叶植物显现出一定的保守性,其核基因在中性绘图和ENC绘图分析中的密码子使用模式与其线粒体中相似。而单子叶植物,尤其是禾本科植物水稻和小麦中,GC含量更高,其密码子使用,尤其是核基因中的密码子使用明显反映的是核酸组成偏好性,说明基因变异更多地受突变压力影响。●小麦种子储存蛋白在氨基酸用法上有明显偏好性,使得编码这类蛋白的基因在590个基因的数据集中和其他基因明显分别开来。进一步的研究表明,密码子使用的对应性分析结果可以在基因家族内部将编码小麦种子储存蛋白不同亚基的序列区分开来。基因家族成员在密码子使用上存在趋同性,出现一定程度上的聚类现象。2.基于近缘关系的物种基因组中密码子用法相似这一原理,我们提出一种新的思路,将密码子用法和其他衡量序列间差异的指标,如序列长度,结合起来作为一种非对位排列式的构建系统发育树的方法初步应用于病毒的数据,从基因组以及各个蛋白编码序列的构树结果来看,树的拓扑结构符合预期结果。3.非同义-同义置换速率比值(d_N/d_S)是藉蛋白质编码序列评价选择压力的一种重要测度,而基于密码子置换模型的最大似然法业已成为检测承受正选择的氨基酸位点及适应性进化的统计分析工具。我们应用最大似然法分析了丙型肝炎病毒的包膜蛋白编码序列,从全世界18个常见的基因型/亚型中,发现了4个正选择/适应性位点。由于这些氨基酸位点位于不同的免疫表位,我们的研究结果具有潜在的生物医学价值,同时表明最大似然法可以作为一种检测高分歧度病毒蛋白中适应性进化存在与否的有效手段。除了最大似然法,Suzuki-Gojobori方法也是检测适应性进化位点的重要方法之一。我们用Suzuki-Gojobori的方法检测了基因亚型1a和1b的各个编码序列中承受正选择的氨基酸位点,分别有3和33个位点被检测出来,这些位点大部分位于免疫表位上。4.碱基组成偏好和选择效应下的基因表达水平所导致的密码子偏好性不易被完全区分开,我们提出一种简便的策略以排除序列自身碱基组成偏好的背景干扰,从而鉴定与翻译效率相关的最优密码子。研究中采用了分别来自原核生物(大肠杆菌)、低等真核生物(酵母)和高等真核生物(植物)的三组不同类型的数据来验证我们的新策略,并与以前的方法以及报道作了一定比较,结果显示我们的方法更加严格、可靠,有效地排除了碱基组成的影响。