论文部分内容阅读
CRISPR-Cas系统的组成成分包括了聚集的规则性间隔短回文重复序列(CRISPR)和相关蛋白(Cas),作为CRISPR-Cas系统广泛存在于许多细菌与古细菌中。近年来,基于CRISPR-Cas系统可以对基因组进行特异性识别与切割的特性,越来越多的CRISPR-Cas系统开发为可靠、强大的基因组编辑工具。但是,这些基于CRISPR-Cas系统的基因编辑工具依旧满足不了研究人员的需求。当前,从细菌或古生菌中找到相似或更好的系统仍然至关重要。而探索不同的CRISPR-Cas系统,首要任务在于系统性地识别与注释假定的Cas蛋白,并且结合系统中的其他元件的识别与注释,如系统中的Cas蛋白群、tracrRNA序列、CRISPR序列及PAM序列,来构建一个系统的细菌与古细菌中候选CRISPR-Cas系统的信息中心。在本研究工作中,首先,全面识别细菌与古细菌中潜在的Cas蛋白与Cas蛋白簇。其次,在1838个细菌与古细菌中鉴定出CRISPR序列,将Cas蛋白簇与基因组近邻的CRISPR序列假定为Cas操纵子,进一步对1162个存在Cas操纵子的细菌与古细菌进行CRISPR-Cas系统的分型,其中有276个细菌与古细菌存在II类型的系统,1024个细菌与古细菌存在I类型的系统,50个细菌与古细菌存在III类型的系统。最后,预测二类系统潜在的tracrRNA序列及PAM序列,在575个细菌与古细菌中预测到tracrRNA1序列,在175个细菌与古细菌预测到tracrRNA2序列,并利用实验鉴定的tracrRNA集合基于SVM算法构建tracrRNA的预测模型,准确率达85%以上(预测模型只是一个尝试,这部分结果并不计入最终结果)。在481个细菌或古细菌中的假定的spacer序列与病毒基因组序列有比对结果,从中选择了98个在病毒基因组中spacer匹配数目较多的细菌或古细菌进行PAM序列的注释。此外,我们构建了Cas蛋白数据库(Cas Protein Database,CasPDB),一个系统性识别与注释细菌和古菌中假定Cas蛋白与CRISPR-Cas系统的数据资源。CasPDB数据库涵盖了32 023种细菌和1802种古细菌,收录与识别出287个已知的Cas蛋白、257,745个假定的Cas蛋白和3593个Cas蛋白操纵子,其中的328个Cas蛋白操纵子预测为II型CRISPR-Cas系统。CasPDB支持多种检索方式、下载、以及3593个假定Cas蛋白操纵子及其组件的可视化。CasPDB的构建能够为研究人员深入地探究细菌与古细菌中CRISPR-Cas系统的防御机制提供数据支持,为基因编辑提供候选的“剪刀”。