论文部分内容阅读
RNA结合蛋白(RNA binding protein,RBP)是细胞中非常重要的调控因子,大量研究揭示了 RBP参与调控细胞的可变剪接、mRNA稳定性、miRNA生成、多腺苷酸化、mRNA的转运和定位等多种重要的生命活动。至今研究者已经在人类基因组中发现了上千个RBP,它们与胚胎发育、癌症和自身免疫病的发生紧密相关。研究RBP识别调控RNA的机制是当前生物学领域的重点方向之一。RNA的序列和结构对于蛋白质的结合有决定性作用,了解RBP在RNA结合域(RNA binding domain,RBD)的序列和结构信息是解析RBP调控机制的关键,RBP对RNA的序列和结构偏好性对于研究RBP与RNA的互作有重要意义。随着高通量测序技术不断发展,以CLIP-seq为代表的研究方法可以在全基因组范围检测RBP的结合位点及其序列信息。同时,Structure-seq、DMS-seq等多种技术使高通量获取RNA结构信息成为可能。近年来上述技术的应用已经积累了人、鼠、果蝇等多个物种的组织及细胞系中RBP与RNA结合的序列信息以及相应的RNA结构信息,并且被收集整理在相应数据库中,如ENCODE、DoRiNA、CLIPdb、Structure Surfer 等。在这样的背景下,我们开发了名为Structure Motif Analysis tool(SMAtool)的软件。SMAtool基于Linux和Python环境搭建,集成了 RNA二级结构注释、RBP结合位点分析、序列与结构基序富集、RNA二级结构偏好性可视化这四项功能,可以整合RBP结合位点的序列信息及相应RNA的二级结构信息以还原RBP绑定RNA的具体模式,并呈现结合位点对RNA二级结构的偏好性。为了验证SMAtool的可行性与准确性,我们从ENCODE数据库收集了 K562细胞系86种RBP的eCLIP-seq,以及相应的K562细胞系DMS-seq数据进行整合分析。分析过程中,我们使用默认参数,即RBP富集出的结合位点上限设置为4000个,结构基序的长度设定为25bp,富集范围为RBP结合位点周围45碱基的区间。最后我们结合了 PDB数据库中收录的4种RBP结合结构域X光线衍射实验结果作为 SMAtool 分析的验证,包括 PUM2、SRSF1、TROVE2、GEMIN5。其中 SRSF1、GEMIN5、PUM2都呈现出明显的多分枝环结构偏好性,而TROVE2则倾向于绑定在茎状结构的RNA上,这些结果呈现的RBP结合域序列与结构信息与PDB数据库三维展示结果相符,这有力的证明了 SMAtool分析RBP序列基序对RNA二级结构的偏好性的能力。综上所述,SMAtool操作简便,可以检索RBP绑定RNA的序列基序与结构基序,并具备将二者结合进而构建序列-结构基序的能力。SMAtool对RNA二级结构偏好性的分析有助于RBP对RNA调控机制的研究,解析RBP结合域中RNA序列与二级结构的关联性对了解RBP和RNA的关系、构建调控网络有重要意义。在RBP与RNA互作数据不断积累的趋势下,SMAtool将可能在RBP二级结构偏好性的研究中广泛使用。