论文部分内容阅读
原核生物是一类由没有真正细胞核的细胞组成的单细胞或多细胞的低等生物,基因组大多较小,一般由一个单一的DN A分子组成,编码区在基因中所占比例很高,因此原核生物蛋白质编码基因成为原核生物基因组相关研究的重要载体。随着测序技术快速发展,基因组数据呈指数增长,有研究发现GC含量相近的原核生物基因组中蛋白质编码基因具有较高的共性特征,而GC含量相差较大的基因组展现出不同的蛋白质编码基因特征。同时,越来越多的基因组数据表明在有些原核生物基因组中含有多条染色体,有些还具有1到多个质粒。而目前对原核生物基因组大、小染色体以及质粒之间相互进化关系的研究很少,仅有的研究还存在分歧,有的研究认为小染色体与来源于大染色体,而有的研究认为小染色体起源于质粒。本课题从基因组角度对不同GC含量原核生物基因组中大、小染色体以及质粒之间的蛋白质编码基因组成及序列特征进行了系统对比分析,结果发现相对于质粒而言,大、小染色体有更多相似的蛋白质编码基因序列特征,因此本文可为今后三者之间进化研究提供可靠的方法和理论依据。论文工作主要包括: 1.基于Re fSeq数据库,构建了由54个不同GC含量的原核生物基因组构成的数据集。数据集中所有的基因组都至少含有2条染色体和1个质粒。对各基因组大、小染色体和质粒中蛋白质编码基因长度分布统计表明,大、小染色体中长度为500~999 bp蛋白编码基因分布最为广泛,其次是长度为1~499 bp与1000~1499 bp的基因,进一步分析表明有些GC含量较低的小染色体中的基因长度集中在1~499 bp;相比之下,质粒中蛋白编码基因长度的分布范围差异较大。对各基因组中大、小染色体和质粒中蛋白质编码基因GC含量的分布统计发现,大多数大、小染色体中基因的GC含量分布更为相似,且多质粒基因组中各质粒之间的GC含量分布有的差异较大。进一步将54种基因组各组分的GC含量与该基因所在基因组的GC含量比较发现大、小染色体中基因的GC含量与基因组的GC含量差异较小,质粒中基因的GC含量有的与基因组GC含量相近,有的则相差较大,而且即使同一物种中的质粒也展现出明显不同的基因特征。 2.为了分析各基因组中大、小染色体和质粒中蛋白质编码基因进化特征,本文对54个基因组大、小染色体以及质粒中蛋白编码基因进行了同义密码子偏好分析。RSCU值分析表明,大染色体与小染色体展现出更多的共同偏好同义密码子数目。进一步对各组分中起始密码子与终止密码子的使用情况分析发现,大、小染色体与质粒对起始密码子AU G的使用有显著偏好,终止密码子UA A和UG A的使用随基因组GC含量变化较UA G明显。在高GC含量基因组中部分质粒对终止密码子UG A的使用频率略低于大染色体和小染色体的使用频率,对终止密码子UA G的使用频率则略高于大染色体和小染色体。蛋白质编码基因中CAI与对应分析维度1的相关性分析表明,54个物种基因组各组分中显著相关所占比例分别为68.52%、73.44%与61.06%。GC3s与维度1的相关性分析表明,54个基因组中大、小染色体以及质粒中显著相关所占比例分别为83.33%、79.69%以及91.15%。这些结果说明各组分中基因表达水平和GC3s是影响密码子使用模式的主要因素。在54个基因组中大、小染色体以及质粒GC3s与CAI显著相关所占比例分别为18.52%、34.38%以及36.28%,表明基因组各组分中一定比例基因的表达水平与碱基组成存在联系,二者共同作用于密码子使用模式。因此,密码子偏好分析结果说明,大多数染色体的密码子使用模式在受到一种主要因素的影响的同时有多种因素共同作用,这些因素对不同组分密码子使用模式的影响程度是不同的,在大部分物种中碱基组成与基因表达水平都是影响密码子使用的主要因素,但在质粒中碱基组成的影响力更强。