论文部分内容阅读
一个生物体内的大部分基因来自于线性遗传后代,并分享着相同的理论进化过程,但它体内也有相当一部分基因并非源于线性遗传,而是来自水平转移过程,这些基因被称为外源基因。识别这些由水平转移过程所获得的基因不仅对于重构生物体的进化历史非常重要,同时也有助于我们更深入了解这类基因在生物体中的功能。
基于不同的理论基础,我们建立了两种新的水平转移基因预测战略,并将其运用于预测几种蓝藻(Cyanobacteria)基因组中的水平转移基因。以下是我们主要的研究内容和结果:
1.CGS(核心基因相似性)方法。在不同基因组中,核苷酸片段相对频率会呈现出显著的差异,本算法正是利用了这一特性。目前,也有其它一些方法(如CAI,W8等)利用了这一特性在基因组中识别外源基因,但这些方法都有同一个问题,即利用的是全部某一长度的核苷酸片段。由于全部的片段中有许多片段并不含信息,所以这些方法的噪音过高,降低了识别外源基因的能力。为解决这一问题,我们首先得出一组非常保守的训练基因,这些基因分别在13个不同的蓝藻基因组中都有直向同源物,它们代表了蓝藻的内源基因:接下来,我们在训练基因中获得了一组非常低频的核苷酸片段,并利用这些片段去识别外源基因。在模拟试验中,显著水平低于10%时,CGS方法的功效在各种条件下都高于CB;当供体基因组和受体基因组的GC含量差异大时,CGS方法的功效高于W8;当供体基因组与受体基因组的GC含量差异小时,CGS方法的功效则高于C+G。据以上模拟结果显示,W8和C+G算法受到供体与受体基因组GC含量差异的显著影响,但CGS方法却非常稳定,并且功效很高。尽管构建进化树存在一些缺陷,但仍是目前最好的评估方法,因此我们利用了S8102作为真实的例子,采用构建进化树的方法去评估CGS、W8、C+G、CB的功效。在S8102的系统树分析过程中,G检测的CGS方法略强于C+G,并明显优于W8和CB。就此,我们已使用BioLisp计算机语言开发了相关软件,以供数据分析使用。
2.MGC(多基因组比较)方法。本算法基于如下假设:在同一物种的不同菌株间,微生物染色体上的基因具有十分保守的共线性,水平基因转移事件将使外源基因组整合进这些保守的基因组中。如果只利用两个在进化上非常相近的基因组进行简单的配对,将很难区分由于染色体的重排与丢失而造成的基因获得与丢失。MGC方法能够尽可能地避免由于基因丢失造成的错误外源基因岛预测,从而改进了预测的准确性。当该方法被运用于PMED4时,我们的结果证实了早期曾提出过的一个观点:tRNA是外源基因的整合热点,许多基因组岛被正向重复序列所包围。这些结果还表明,GI主要是通过遗传重组被整合进入宿主基因组中。通过搜寻病毒基因组数据库,我们发现PMED4的42个外源基因的同源基因存在于病毒基因组中,但是大部分的病毒基因组只有大的片段而没有整个基因组,因而我们只能分析部分外源基因与病毒基因组的关系。通过分析21个外源基因的进化树,我们还发现7个病毒基因组中存在的外源基因的同源基因可能是来自蓝藻。这些外源基因在病毒中存在,显示这些基因可能对病毒有某些好处,并在病毒中发挥着重要的功用。
3.对于这两种预测外源基因的方法,CGS是利用核心基因的序列特征信息预测外源基因,而MGC是利用基因在染色体上的位置去预测外源基因。这两种方法将在进化生物学和基因组学的研究过程中,帮助我们更准确的预测外源基因。