论文部分内容阅读
随着大规模测序的发展,在公共数据库中有了大量的数据,怎样从这些数据中挖掘出有效的生物意义成为了迫切需要解决的问题。在这篇文章中,我们通过生物信息学方法对目前GenBank中已经测序的细菌基因组在基因组组成上进行了整体上的比较分析和理论预测。整个过程和结果可分为以下四个部分:1.在对细菌染色体组成上进行整体分析之后发现,细菌基因组的GC含量很大程度上决定了细菌基因中的密码子的使用情况。同时,细菌基因组的GC含量和染色体长度也存在着很大的关系。换句话说,细菌基因组在整体组成上和GC含量有着特定的使用模式,也就是整体上组成的一致性。2.进一步分析,利用基因组岛和基因组本身在组成上的差异,我们对蜡纸芽孢杆菌的基因组进行了自动分割,然后利用分割结果对其基因组岛进行了系统的预测。同时,这也说明了尽管在不同细菌基因组整体上水平上具有相似性,但是在单条染色体内部,基因组组成上却存在着组成上的不一致性,这些组成上差异的不同区域与功能有一定的关系。3.再进一步分析,即使在同一株细菌的不同染色体上,组成上也是有明显差异的。我们发现,在多染色体细菌中,重要基因在染色体上的分布也并不是均匀的,而在洋葱伯克氏菌属,我们发现了必需基因和其它重要基因的更不寻常的分布,即其三号染色体上具有了比二号染色体更多的重要基因。这对研究细菌染色体的进化过程有着重要的意义。4.最后,利用基因组组成上的相似和不同,我们尝试利用组成上的参数,结合机器学习算法,对细菌中的必需基因进行预测分析。特别地研究了大肠杆菌和支原体两株必需基因的预测情况,同时也对目前已经实验确定的必需基因整体上进行预测分析。在这篇论文中,对细菌基因组在整体水平组成上的相似性,染色体间的组成上以及染色体内的组成上的差异性进行了分析,对研究细菌基因组的功能和进化有着重要的意义。