论文部分内容阅读
背景:CRISPR-Cas9(Clustered Regularly Interspaced Short Palindromic Repeats-CRISPR associated 9)系统是一种细菌针对入侵核酸的获得性免疫系统。因其可以在指导RNA(guide RNA,gRNA)的引导下,实现对指定基因的编辑,比其它基因编辑技术更为便捷,目前广泛应用于基因编辑(敲入、敲除和定点突变)、基因表达调控、DNA刻录和DNA成像等相关领域。但是Cas9对靶点序列下游PAM(protospacer adjacent motif)序列的识别依赖,限制了Cas9在基因组上的可编辑范围,如何解除PAM序列识别依赖对Cas9的限制,这一直是Cas9改造的研究热点。目前常用的改造PAM特异性识别的手段包括:定向进化和蛋白质理性设计,前者依赖高强度高精度的筛选流程,后者需对蛋白质结构和功能之间的关系认识非常透彻,两者各有优点和局限性,因此目前迫切需要新的改造PAM特异性识别的方法。而PID结构域交换重组的方法,具备便捷快速改变PAM特异性识别的优势,但是目前只有几篇成功案例被报道,并未引起研究工作者的足够重视。目的:(1)首次揭示数据库中天然Cas9家族序列的PID结构域交换重组事件的发生率及其意义,证明自然界中存在大量可以用来进行PID结构域交换重组的PID序列。(2)基于SaCas9的骨架,利用PID结构域交换重组的方法,构建出具备更宽泛PAM识别范围的SaCas9嵌合突变体。方法:(1)使用多重序列比对、系统发育分析和重组分析的生物信息学方法,揭示Cas9家族序列中PID结构域交换重组事件的发生率;(2)使用PID结构域交换重组的方法构建SaCas9嵌合突变体;(3)用细胞外酶切检测和细胞转染T7E1酶切检测的方法,检测SaCas9嵌合突变体的PAM识别范围、内源靶点活性及靶点错配容忍度。结果:以来源于链球菌属的(Streptococcus pyogenes)Sp Cas9序列为搜索序列,通过对链球菌属家族成员的序列比对,发现在其家族成员中Smut Cas9-2和Smut Cas9-1的PID序列相似度只有43.90%,而两者N端其余氨基酸序列几乎完全一致。进一步序列分析表明,Smut Cas9-2的PID序列和Smut Cas9-5的几乎完全相同,但是两者的N端其余序列相似度为76.56%。这个结果揭示了Smut Cas9-2的PID是通过结构域交换的方式,以Smut Cas9-5作为基因供体获取的,即存在天然的PID结构域交换重组事件。后续我们对来源于链球菌属的64个代表性Cas9全序列和PID序列分别构建进化树,进化树的分布揭示了PID序列是按照与PAM相互作用的保守氨基酸基序分类聚集的,即按照双谷氨酰胺和谷氨酰胺-精氨酸基序分类,表明它们分别来源于其各自的共同祖先序列。而这些共同祖先来源的PID序列,在Cas9全序列的进化树中,均匀的分散在各个进化树的分枝上,这个结果进一步证明在链球菌属Cas9序列中,PID结构域经历了广泛的重组交换。在此基础上我们在Ref Seq数据库中选取了20个属,共582个Cas9序列,进行PID结构域交换重组分析,结果显示,在大多数的Cas9序列中,存在PID结构域交换重组的事件。基于此结果,我们用来源于猪葡萄球菌(Staphylococcus hyicu)SHy Cas9的PID结构域替换金黄色葡萄球菌(Staphylococcus aureus)SaCas9的PID序列,构建出SaHyCas9嵌合突变体。将SaHyCas9转入HEK293T细胞内编辑后用T7EI酶切检测,检测结果初步显示SaHyCas9可以识别NNAAAA的PAM序列,这个序列不能够被野生型SaCas9识别。为了进一步筛选SaHyCas9的PAM识别范围,我们构建了一个包含256种组合的PAM文库。通过对PAM文库的活性筛选,SaHyCas9表现出较为宽泛的PAM识别范围,能够识别256种组合中的135种,而SaCas9只能识别256种组合中的55种,结果表明SaHyCas9极大的拓展了SaCas9的PAM识别范围。同时细胞内源靶点编辑实验,进一步证实了SaHyCas9在细胞内编辑时,在PAM识别上表现出更为宽泛的碱基识别范围。靶点碱基错配容忍度的实验揭示了SaHyCas9与SaCas9在总体一致的规律上有轻度偏高的脱靶容忍度。结论:总体而言,通过本论文的研究我们揭示了天然Cas9的PID结构域交换重组事件在自然界广泛存在。并且基于此原理,我们对SaCas9进行结构域交换重组,成功的拓展了SaCas9的PAM识别范围,拓宽了SaCas9在基因组上的应用范围,为基因编辑提供了具备更多样酶学性质的Cas9工具酶。