论文部分内容阅读
随着人工核酸内切酶的不断研发和改进,位点特异性基因编辑逐渐成为多个物种各研究领域的热门技术。近年来,源于酿脓链球菌的Cas9蛋白(SpCas9)由于其高效率、多功能和便于操作等特点已经成为最受欢迎的RNA介导的核酸内切酶(RGEN),广泛应用于各物种基因组靶位点修饰相关研究中。尽管CRISPR/Cas系统已经公认具有较高的靶位点编辑活性,但是这项技术造成的相对较高的脱靶突变率仍然是影响应用效果和范围的主要难题。先前的研究发现,Cas9等RGEN引起的脱靶效应具有一定的规律性。单链引导RNA(sgRNA)序列中与前间区序列临近基序(PAM)相邻的8到12个碱基决定Cas9蛋白的结合特异性,而Cas9-sgRNA打靶系统的脱靶位点与靶序列相比最多具有10个错配碱基。因此安全性是基因编辑技术研究与应用过程中的重要考虑因素。目前GUIDE-seq是鉴定RGEN引发的脱靶突变的最准确的方法。利用该突变检测技术在Cas9等基因打靶研究中发现了一些脱靶发生率极低的靶位点序列,这些位点的预测脱靶位点数量也相对较少。这个现象说明通过计算机程序预先分析和评估脱靶效应是提高定点打靶技术的特异性和安全性的重要环节。目前,虽然已经有多款CRISPR/Cas系统相关的应用程序发布,但是其中大部分为在线软件,在sgRNA的模式、输入序列长度、物种等方面具有一定的限制,仅适用于某些物种的小规模分析。而提供可下载版本的程序主要为Perl语言脚本,不便于大部分不能熟练编程和使用程序语言的生物学研究人员使用。更重要的是,现有的RGEN相关程序由于受到算法选择的限制,导致在全基因组范围内预测的脱靶位点不完全,造成靶位点脱靶效应被低估,不利于后续实验研究。此外,随着高通量测序技术的发展,越来越多的研究聚焦于利用RGEN技术进行全基因组大规模筛选,鉴定与细胞活性、耐药性以及肿瘤发生发展相关的重要基因。因此,迫切需要适用于大规模RGEN编辑技术的方便快捷具有通用性的生物学软件。本研究利用新算法开发了RGEN相关的综合应用程序TQPF(Tremendous Qualified Pattern Finder)。通过对牛和人全基因组序列进行大规模靶位点和脱靶效应分析,探究安全基因组打靶的规律,构建含脱靶位点信息的优选靶位点数据库CRISPRBase,并提出一个评分体系作为靶位点筛选的重要参考标准,为后续试验研究提供安全可靠的打靶位点提供方法。本研究的主要内容如下:1.设计并开发了一个多功能应用程序包TQPF,由“Pattern Finder”“OT Searcher”和“One Step Off-Target Analysis”三部分组成,采用“流水-管道”式核心算法,适用于包括简并碱基在内的任意模式序列的区配搜索,全基因组范围脱靶位点扫描以及快速分析预测结果。“流水-管道”算法可以实现快速读取碱基序列,对全基因组进行无偏差扫描。高度自定义设计功能、用户友好型界面、方便和强大的数据分析功能以及可扩展的应用范围等特点使TQPF软件优于其它程序。2.通过小样本检测寻找脱靶突变的发生规律,根据在此过程中产生的原始数据规模评估全基因组靶位点筛选适用的参数。结果证明与靶位点相比具有较少错配碱基的位点易真正发生脱靶突变。考虑到原始数据的生成量和计算机存储能力,确定以最大碱基错配数为6的脱靶位点合集来评估全基因组靶位点的安全性。3.设计以TQPF程序为主要工具的大规模靶位点筛选流程,并对牛全基因组和人癌症及胚胎发育基因合集序列进行CRISPR/Cas9靶位点筛选和脱靶效应预测。在此基础上构建CRISPRBase数据库,便于大规模靶位点数据的存储、检索和更新。4.CRISPRBase共收录经过初步筛选流程得到单独存在于基因组上的的2293508条牛靶位点序列和727886条靶向10116个与人癌症及胚胎发育相关基因的位点序列。分析数据库中这些低风险靶位点在基因组中的位置分布并总结规律。在全基因组脱靶位点统计信息规律的基础上,提出“靶位点评级体系”,为快速筛选靶位点提供参考标准,帮助评估和选择安全打靶位点。5.筛选数据库中符合“TTTVN20NGG”模式的Cpf1和Cas9通用靶位点序列,分析其概率、染色体区域分布和基因覆盖度,为多用途打靶位点筛选提供参考。6.对牛奶蛋白基因CSN1S1、CSN1S2、CSN2和BLG序列以及24号和28号染色体的基因间隔区序列的靶位点进行筛选,选择位置合适、潜在脱靶位点数量较少的靶序列进行切割效率检测。利用重组分析检测靶位点被Cas9蛋白造成DNA双链断裂诱发同源重组的效率。结果表明被筛选出的靶位点均可以被Cas9蛋白切割并引发同源重组修复,其中CSN2位点的切割效率最高,可以作为奶牛乳腺生物反应器的高效率安全靶位点。综上所述,本研究提出的TQPF程序是一个适用于用户自定义高通量模式序列筛选和分析的综合应用软件,其采用的“流水-管道”式新算法实现了全基因组快速无缝扫描,使搜索结果更加准确。此外,本研究构建了CRISPRBase数据库提供优选靶位点及其详细信息,并揭示了全基因组范围RGEN靶位点和脱靶效应的特征。因此,本文的研究结果可以降低基因组编辑技术过程中潜在的安全隐患,由此促进RGEN介导的位点特异性打靶的应用。