论文部分内容阅读
传统生物亲缘关系的确定主要基于表型特征(如生存环境、外部形态、解剖生理和代谢途径等),这对微生物来说就显得无能为力。分子生物学的发展,特别是测序技术的不断完善,使基于核苷酸或氨基酸序列确定生物亲缘关系成为可能。其中,最具代表性和影响力的是沃斯(Carl Richard Woese)及其合作者利用核糖体小亚基序列(SSU rRNA)发现了古细菌是介于真核生物和细菌的独立“界”这一事实。然而,这种单基因序列比对的方法因其判定结果的不稳定性而备受质疑。随着不同物种全基因组测序的相继完成,利用全基因组的序列特征(如共享基因数目或其在染色体上的排序、基因含量及保守基因对等)来确定生物亲缘关系的方法不断发展,逐渐形成了所谓的种系基因组学。但是这些方法本质上仍然需要序列比对,与单基因序列比对方法一样易受基因组大小、横向基因迁移(Horizontal Gene Transfer1、平行基因缺失(Parallel Gene Loss)以及基因进化速度等因素的影响,导致判定指标特异性差、分辨率低而不能正确判断目前已经测序完成的物种亲缘关系。最近,我国学者郝柏林课题组提出利用全基因组或蛋白质组中“n聚体”(即寡核苷酸或多肽)的组分特异性来确定生物亲缘关系。这是一种非序列比对方法,能准确鉴定目前综合不同方法确定出的微生物亲缘关系,有效克服了原有方法的诸多限制,引起了广泛关注。n聚体组分特异性的研究显示,仅在取值适当的情况下才能得到准确的生物亲缘关系。例如,n=5或6时,利用多肽组分矢量能够重建细菌的亲缘关系树;而当n取较小的数值时,则效果不好。另一方面,GC(Guanine+Cytosine)含量特征是目前确定微生物亲缘关系的重要判据之一。简单来说,GC含量越接近的生物,其亲缘关系也越近。而GC含量与基因识别标志又有一定的关联。有关基因识别标志(Genomic Signature)的研究发现,四核苷酸(Tetranucleotide)的频率分布特征与相应基因组的GC含量之间存在强关联。但是,GC含量指标的分辨率太低而只能作为其他鉴定方法的辅助。基于以上事实,本文主要研究了细菌多肽组分特异性与相应基因组GC含量的关联,理解多肽组分特异性与GC含量的不同之处,揭示前者的优越性,并对n的最佳取值提供新注解。结果发现:1)当多肽长度小于4时多肽组分特异性与GC含量之间具有很强的正关联,意味着在这种情况下多肽组分统计所得到的信息等价于基因组GC含量的特异性信息。由于郝柏林等人以前的研究表明在这一长度上GC含量和小n值下多肽组分特异性都能对“属”以上级别的亲缘关系做出准确并且一致的判定,表明GC含量和小n值多肽组分只能区分这个层次上的物种特异性。由于和GC含量的等价性,短多肽组分统计不能正确判定更精细层次上的细菌亲缘关系。这一结果也暗示基因识别标志无法准确重构微生物亲缘关系,因为它只等价于GC含量特异性。2)当多肽长度大于4时,多肽组分特异性与GC含量之间的关联发生突变,急剧降低到几乎无关联的程度。在n=5:或6的情况下,多肽组分特异性能准确给出细菌到种的分类树的事实表,此时这种新方法超越了GC含量分析方法和基因识别标志方法,挖掘出了物种特异性特征。