基于高通量测序数据的RNA结合蛋白序列和结构偏好性分析方法

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:vincechuang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
RNA结合蛋白(RNA binding protein,RBP)是细胞中非常重要的调控因子,大量研究揭示了 RBP参与调控细胞的可变剪接、mRNA稳定性、miRNA生成、多腺苷酸化、mRNA的转运和定位等多种重要的生命活动。至今研究者已经在人类基因组中发现了上千个RBP,它们与胚胎发育、癌症和自身免疫病的发生紧密相关。研究RBP识别调控RNA的机制是当前生物学领域的重点方向之一。RNA的序列和结构对于蛋白质的结合有决定性作用,了解RBP在RNA结合域(RNA binding domain,RBD)的序列和结构信息是解析RBP调控机制的关键,RBP对RNA的序列和结构偏好性对于研究RBP与RNA的互作有重要意义。随着高通量测序技术不断发展,以CLIP-seq为代表的研究方法可以在全基因组范围检测RBP的结合位点及其序列信息。同时,Structure-seq、DMS-seq等多种技术使高通量获取RNA结构信息成为可能。近年来上述技术的应用已经积累了人、鼠、果蝇等多个物种的组织及细胞系中RBP与RNA结合的序列信息以及相应的RNA结构信息,并且被收集整理在相应数据库中,如ENCODE、DoRiNA、CLIPdb、Structure Surfer 等。在这样的背景下,我们开发了名为Structure Motif Analysis tool(SMAtool)的软件。SMAtool基于Linux和Python环境搭建,集成了 RNA二级结构注释、RBP结合位点分析、序列与结构基序富集、RNA二级结构偏好性可视化这四项功能,可以整合RBP结合位点的序列信息及相应RNA的二级结构信息以还原RBP绑定RNA的具体模式,并呈现结合位点对RNA二级结构的偏好性。为了验证SMAtool的可行性与准确性,我们从ENCODE数据库收集了 K562细胞系86种RBP的eCLIP-seq,以及相应的K562细胞系DMS-seq数据进行整合分析。分析过程中,我们使用默认参数,即RBP富集出的结合位点上限设置为4000个,结构基序的长度设定为25bp,富集范围为RBP结合位点周围45碱基的区间。最后我们结合了 PDB数据库中收录的4种RBP结合结构域X光线衍射实验结果作为 SMAtool 分析的验证,包括 PUM2、SRSF1、TROVE2、GEMIN5。其中 SRSF1、GEMIN5、PUM2都呈现出明显的多分枝环结构偏好性,而TROVE2则倾向于绑定在茎状结构的RNA上,这些结果呈现的RBP结合域序列与结构信息与PDB数据库三维展示结果相符,这有力的证明了 SMAtool分析RBP序列基序对RNA二级结构的偏好性的能力。综上所述,SMAtool操作简便,可以检索RBP绑定RNA的序列基序与结构基序,并具备将二者结合进而构建序列-结构基序的能力。SMAtool对RNA二级结构偏好性的分析有助于RBP对RNA调控机制的研究,解析RBP结合域中RNA序列与二级结构的关联性对了解RBP和RNA的关系、构建调控网络有重要意义。在RBP与RNA互作数据不断积累的趋势下,SMAtool将可能在RBP二级结构偏好性的研究中广泛使用。
其他文献
目的:通过随机抽样调查的方式分析西宁地区40岁以上中老年女性对膀胱过度活动症(overactive bladder,OAB)疾病知识认知情况及对相关知识的需求度,更好的为医护人员在日常工作中开展OAB知识的健康宣教提供有价值的参考依据,同时也有利于提高社区中老年女性对OAB的正确认识,以促使其建立合理的生活方式,继而科学、有效地控制OAB的发病率;方法:随机选取西宁地区720例40岁以上中老年女性
高渗透压甘油促有丝分裂原活化蛋白激酶信号传导途径(High osmolarity glycerol mitogen-activted protein kinase signaling transduction pathway,HOG-MAPK)是酵母细胞调控
作为我国油田提高油藏采收率的重要技术措施,泡沫驱利用驱油剂之间的协同作用,使储层采收率大度幅提升,从而增加油藏产量。泡沫驱在高温高矿化度油藏提高采收率方面主要面临两大困难急需攻克:(1)高温和高矿化度会严重影响泡沫体系的稳定性,从而导致泡沫体系在多孔介质中的性能变差;(2)静态筛选、配制出的强化泡沫体系,在流动实验中是否同样具有优越的性能,从而有效地提高油藏采收率。为此,有必要加强高温高盐油藏泡沫
蛋白质是生命的物质基础,在很多生命活动中起到至关重要的作用。蛋白质的功能与其结构直接相关,蛋白质的结构可分为四个结构水平,其中二级结构具有很重要的研究意义。蛋白质
RNA代谢过程对于生物的生长发育过程是非常重要的,但是对于RNA代谢过程除了已知的研究成果实际上整个RNA代谢的调控过程还是有很多是我们不知道的。在这里,我们对植物RNA代谢
缺陷结构普遍存在于固体材料中,对于固体氧化物燃料电池(SOFC)电解质材料来说也不例外,缺陷结构的测定及缺陷结构与物理性质之间的关联一直以来是SOFC电解质材料研究的难点之一。缺陷结构的含量一般很低,利用衍射方法表征材料给出的是平均结构,而缺陷结构信息被掩盖在平均结构中,因而难以提取缺陷结构。固态核磁共振谱对局域结构敏感,经常用于局域结构分析。但对固态核磁共振信号的解释目前大多是基于经验知识,不一
作为企业社会责任的重要内容之一,企业的慈善行为日益受到学术界和实务界的广泛关注,然而有关于企业慈善捐赠的动机更是饱受争议。传统经济学理论认为企业存在的基本目的是追
近年来,网络捐助越来越被大众所接受,和传统捐助方式相比,它具有许多不可替代的优势。但是,网络信息传递的单向性使得接收信息的人只能从有限的文本表达里来了解事件,做出是
长江中下游成矿带是我国最重要的成矿带之一,其中宁溧地区位于扬子准地台下扬子台褶带东段,系长江中下游铁铜多金属成矿带的一部分,而本次研究的西横山矿床就位于长江中下游
在众多植物激素中,脱落酸(abscisic acid,ABA)作为植物内源激素之一,在植物增强干旱和盐耐受性上起到了不可或缺的作用。植物细胞中,存在由ABA受体PYL/PYR/RCAR、PP2Cs以及Sn