论文部分内容阅读
在真核细胞内,转录组与转录后调控有着密切的关联:转录本RNA从产生直至降解的过程中,总是被RNA结合蛋白(RBP)和其他RNA分子结合,这些调控因子参与几乎所有的转录后调控事件,包括RNA分子的剪接、加尾、亚细胞定位以及降解等;而转录后水平上精确的各种调控机制进一步增加了细胞内转录组的复杂性,使得细胞表现出极为多样的细胞状态表型以及对胁迫的迅速应答。近年来,高通量测序技术的发展为我们整合研究转录组与转录后调控提供了机会。利用RNA-seq技术,我们可以更为精准地确定基因的表达量;通过CLIP-seq技术,我们可以获得RBP在全转录组水平上高精度的结合位点。在本论文中,我们利用CLIP-seq和RNA-seq技术产生了大量数据对转录组和转录后调控进行了整合的计算分析。首先,我们构建了 RBP转录后调控的整合型数据库CLIPdb和POSTAR。CLIPdb是提供全转录组水平上高精度的RBP结合位点的数据库。我们收集了来自四个物种(人类、小鼠、线虫与酵母)中395套已发表的CLIP-seq数据集,涵盖了1 111个RBP,并使用统一的的计算方法在全转录组内鉴定RBP结合位点。POSTAR提供了人类和小鼠转录组中规模最大的来自实验证据和计算预测的RBP结合位点。利用大量的分子调控事件、基因组变异位点以及功能性基因等信息,POSTAR对RBP结合位点进行了详细的注释。然后,我们发展了一套计算框架,在单核苷酸的精度上研究了 RBP与具有结构的非编码RNA的全局相互作用。我们发现,RBP结合位点总体上倾向于出现在单链RNA区域中,具有进化保守的特征,有助于体内特定RNA二级结构的形成,并与RNA分子的生物学调控作用有关。最后,我们利用公共的RNA-seq数据对四种哺乳动物(人类、猩猩、倭黑猩猩和小鼠)的转录组进行了大规模的比较研究,并鉴定出保守的与细胞状态的调控密切相关的关键RBP以及其他类型的关键基因,包括转录因子和长链非编码RNA。我们发现,这些细胞状态相关的基因可以作为良好的细胞状态标志物。更为重要的是,相当数量的与细胞状态相关的RBP在调控细胞分化方面的功能还没有得到很好的研究。本研究通过高通量数据的整合计算分析,揭示了 RBP参与转录后调控的复杂机制,以及RBP和其他关键基因在调控细胞状态多样性方面的潜在功能。本研究为更好地理解RBP参与介导的转录组与转录后调控机制提供了有价值的数据资源。