论文部分内容阅读
随着基因测序技术的飞速发展,我们获得的生物全基因组序列的数据是呈现爆发式增长的。对DNA序列进行分析,首先要进行基因识别的工作,传统的实验验证方法由于识别速度缓慢已经不能满足这一需求。因此,一系列相关的基因组预测工具应运而生,Prodigal、ZCURVE、GeneMark和 GLIMMER就是其中比较优秀的代表。由于种种原因或者在技术原理上的缺陷,这些基因组预测工具的预测结果都会存在着预测了错误的基因或者遗漏了具有蛋白编码功能的ORFs的情况,在不同GC含量生物上的表现也不尽相同。我们需要对这些基因组预测工具的性能作一个客观有效的评价,同时在针对不同的生物DNA序列进行基因组预测工作中为我们选择最优的基因组预测工具组合提供理论依据。 本文的研究工作针对以上的问题首先从最新的 NCBI的基因组数据库中按照GC含量的分布抽取了150个生物的DNA序列和基因注释信息。这些已有的注释信息中同样存在着遗漏或者错误的信息,我们对这150个生物都进行了基因重注释的工作,查找其中遗漏的新基因,同时排除掉其中的非编码ORFs。这些经过更新过的注释结果将作为我们测试比较这四个基因组预测工具性能的数据。 在独立模型预测结果的对比中,我们发现Prodigal的整体表现最佳,在不同的GC含量上的性能具有很高的一致性。GLIMMER在低 GC含量区间(0.10-0.35)上表现最佳,在高GC含量区间(0.35-0.75)上表现一般。ZCURVE预测结果的额外预测率EPR在GC含量区间(0.35-0.55)上性能突出。 我们还探索了在不同 GC含量生物上进行基因组预测的最优的预测工具组合,通过130个生物作为训练集,20个生物作为测试集,我们发现Prodigal加GeneMark,Prodigal加GLIMMER和GeneMark加GLIMMER这三个组合的效果是最佳的。通过对比,我们发现联合预测的结果在准确度和额外预测率EPR这两个参数上全面超过了独立预测工具的中的最佳结果。 最后,基于本文的研究结果,我们还开发了相应的批量基因重注释工具和基因组预测在线服务。