论文部分内容阅读
原核生物通常缺乏可用于系统发育分析的表型特征如形态和行为等特征标记。随着越来越多的原核细菌基因组的完全测序,系统发育领域中基于基因组数据来推测原核生物间进化关系的需求也日益增长起来。相比单基因的方法,基于全基因组序列的新方法通常能够抓住更多的系统发育信号,也因此将产生更加可靠的系统发育树(phylogeny)。系统发育树的构建有很多种方法,如基于基因含量、基因顺序、基因的串联组合等,也包括一系列物种间共有的综合特征,即稀有基因组变异(raregenomicchanges),如插入和缺失、反转座子的整合及内含子的位置等。在本文中,我们探究一种基于距离矩阵构建系统发育树的方法。该方法主要基于已完全测序的原核基因组间共有的重叠基因(overlappinggenes)来定义物种间两两的进化关系,然后应用距离法整合距离矩阵来推测系统发育树。
由于系统发育标记的分类分辨率(taxonomicresolution)普遍不高,使得我们很难系统地学习大规模数量的物种或基因组间的系统发育关系。为了解决这个问题,我们试图通过检测基于全基因组序列的一类二级结构的特征重构原核生物的系统发育树。我们将该方法应用到366个已完全测序的原核物种上,通过全面深入地分析和证明,发现这种基于全基因组内共有重叠基因对的方法能够构建出一个比较可靠的系统发育树。进一步地,通过比较基于重叠基因对和传统的基于小亚基核糖体RNA(small-subunitrRNA)构建的两类系统发育树的性能,我们得出基于重叠基因构建的树除了在一些有争论的分枝上出现歧义外,大部分分枝都符合已公开发表的系统发育树的分类信息,而且能够比较容易地大规模应用于已完全测序的原核物种上。这些结果表明重叠基因作为一类稀有的基因组变异标记用于系统发育树的构建是相对可靠的,不但能够为一些难以解决的分枝提供更多的分类信息,也为构建一个全面可靠的基于全基因组特征的原核生物分类系统提供一个可靠的框架。
除此之外,我们还构建了一个重叠基因相关的伞面、互动的开放式数据库BPhyOG(BacterialPhylogeniesbasedonOverlappingGenes)。该数据库不但包含了177个原核生物的所有重叠基因对(79855)的详细注释信息,也是一个动态推测系统发育树的平台。用户通过网址http://cmb.bnu.edu.cn/BPhyOG/即可免费访问BPhyOG。