论文部分内容阅读
随着高通量测序技术的发展,大量的微生物基因组数据被发布在公用数据库中。这使得用比较分析法挖掘序列的规则或新的序列模式更加方便。在这些基因组的研究中,基因组GC含量对核苷酸和氨基酸组成的影响引起了特别的注意。先前的工作已经表明不同物种DNA双链中的GC含量有很大差异。在真核生物中,基因组GC的含量变化范围比较小,大约从30%到50%,而在原核生物中的基因组GC含量变化范围比较大,大约从25%到75%。这篇文章总共对目前已测序的所有原核生物,即来自不同物种的2670株细菌和古细菌的基因组进行分析。这些原核生物的基因组GC含量变化范围从14%至75%,比之前报道的范围要广。文章主要分析了基因组GC含量和碱基、密码子和氨基酸使用偏好的关系,包括以下几项工作内容:第一,我们分析了整个基因组中密码子三个位点上的碱基使用频率、密码子使用频率和氨基酸使用频率分别对应的距离,即碱基距离、密码子距离和氨基酸距离,以及这些距离和基因组GC含量的关系,通过热图的方式直观的表现出来,并计算了碱基距离、密码子距离和氨基酸距离与基因组GC含量差值之间的线性关系;我们列举了个别GC含量少的碱基、密码子和氨基酸作为例子,针对整个已测序的原核生物对基因组GC含量和碱基频率、密码子频率和氨基酸频率的关系做了验证工作,证明其存在线性关系。第二,对于基因组GC含量和基因组长度关系,我们从不同的系统发育谱系角度进行了分析;同时,我们将原核生物数据分别按照基因组GC含量和所属门类进行分组分析,对比研究这两组的结果表明,基因组GC含量对碱基、密码子和氨基酸的使用偏好的影响比系统发育更大;而对基因组GC含量和t RNA基因的使用频率做了线性分析结果表明,基因组GC含量对氨基酸使用偏好的影响更多的是直接作用于碱基序列,而不是转录过程。最后,提供了数据预处理小工具,使得即使数据更新迅速,文中大量的数据提取工作在后期继续分析的重复使用时得到简化,提高效率。总而言之,在这篇文章中,我们通过之前未用过的热图法分析了基因组GC含量对碱基、密码子和氨基酸使用偏好的影响,并分析讨论了这个影响力的作用强度和作用渠道。