论文部分内容阅读
随着DNA测序技术的不断进步,各物种基因组测序数据正在以爆炸式的速度增长,因此以基因组为基础对各物种进行进化方面的分析也成为了可能。在以系统发育为基础的进化研究上,目前主流的方法为以各基因组上的单核苷酸多态性(SNP)的差异为基础进行研究分析。 越来越多的研究表明,基因组上的基因组成(gene content)以及基因序位(gene order)也是保守的。通过研究不同物种之间的基因组成与基因序位的差异,以及基因的进化事件,如基因复制,基因插入与缺失,基因位移等,也能够得到相应物种的进化信息。我们曾开发出了基因组拓普网络(Genome Topology Network,GTN)计算模型的最初版本,用于分析细菌基因组之间的系统发育情况。GTN的创新之处在于,以基因家族与相邻家族的变化为基础,对细菌基因组群进行系统发育的研究。 在本文中,我们对GTN在功能上进行了升级与拓展。 1.GTN除了能够计算拼接成环的细菌基因组完成图(complete genome),也能够将未拼接成环的基因组草图(draft genome)加入到计算范围。 2.我们探索出了两个筛选合适基因组的标准:根据木桶原理去除影响平均共有共线性区域长度的筛选法以及COG注释基因占基因组基因的比例筛选。 3.改进后的GTN更新了基因聚类的算法,相比较于简单地用BLAST软件进行COG基因注释,GTN引入了马尔科夫聚类算法(Markov Cluster Algorithm,MCL)用于基因聚类,从而增加了GTN聚类功能的可信度。 4.GTN增加了bootstrap功能,用于对其所绘制的系统发育树进行验证与校正。 5.GTN增加了基因插入缺失信息列表功能,给出了基因家族节点变化究竟是因为哪些基因变化而导致的信息,将GTN从基因家族的研究水平推进基因研究水平。 我们从NCBI基因组数据库网站下载了51株B型链球菌基因组作为改进的GTN的研究数据,其中28株为拼接成环基因组,23株为未拼接成环的基因组。经过基因组完整性筛选,我们去除掉了5个基因组,使用完整性较好的46个基因组进行了GTN计算与系统发育分析。我们使用了MCL聚类算法以及orthoMCL两种方法分别对基因组的基因进行了聚类,用于后续分析。 GTN计算结果表明,在B型链球菌基因组中,相对位置发生变化的基因主要为[G]Carbohydrate transport and metabolism和[L]Replication,recombination and repair功能类的基因,主要富集于“Metabolic pathways”。 通过GTN给出的基因插入缺失列表,我们发现血清型VI型的B型链球菌含有三个独有的与半乳糖代谢相关的酶基因,缺失了一个DNA解旋酶基因,表明VI型B型链球菌与其姐妹分支上的4株B型链球菌在半乳糖代谢方面以及DNA复制方面有所差异。 通过对血清型Ib型B型链球菌相对于其他分型B型链球菌的缺失基因组序列的分析,并进行KEGG代谢途径(pathway)富集,发现这些基因集中于“Propanoate metabolism”,“Microbial metabolism in diverse environments” 和“ABC transporters”。