论文部分内容阅读
环形RNA是一类结构特殊的非编码RNA。近两年的研究发现,环形RNA在动物细胞内广泛存在,且大多位于基因的外显子区域。另有研究表明,一些环形RNA承担着重要的生物学功能,例如充当microRNA的“海绵”在转录后水平对基因表达进行调控。然而,目前绝大多数的环形RNA功能仍不明确,对它们的成环机制研究也不完善,而从海量转录组数据中全面、无偏的识别环形RNA分子,则是解答这些科学问题的关键环节。此外,最新报道中发现的新类型环形RNA分子,表明它们并非完全由已知外显子组成,而可能有其特殊的内部结构。然而,由于环形RNA相比于mRNA表达量较低且与后者在基因组位置上有较大重叠,此前的研究仍然局限于环形接合位点的检测。目前,尚无高通量手段全面的识别和探索其内部结构和可变剪接,这极大限制了我们对环形RNA的理解。 本研究针对环形RNA的结构特点,基于环形RNA测序数据与基因组比对时产生的成对交叉剪切信号,建立了一种新的识别算法CIRI,以在包括内含子和基因间区在内的基因组范围内识别环形RNA。该算法不要求数据在产生时使用诸如RNase R处理等环形RNA富集步骤,也不依赖任何注释信息,同时能对几乎目前所有常用的第二代测序平台产生的读长进行处理。其中引入的系统筛选策略在确保了较低错误检测率的前提下,全面的检测非外显子型以及短外显子邻接环形接合位点的环形RNA。通过分析ENCODE15种细胞系环形RNA组成及表达差异,我们发现肿瘤细胞系相比于非肿瘤细胞系更倾向于具有不同的环形RNA组成和表达水平,而广布性的环形RNA趋向于具有更高的表达水平,这提示它们在细胞中可能发挥着重要的功能。我们的结果还揭示人类细胞内有大约10-20%的环形RNA来源于基因组内含子或基因间区,由于在这些非外显子型环形RNA中敲除内含子或基因间区理论上并不会影响线性mRNA的表达,这为将来的功能研究提供了理想靶标。 本研究还进一步提出环形RNA外显子和可变剪接的识别算法。该算法基于环形RNA接合位点测序读段对(back-spliced junction read pairs)的分段比对特征开发,因此能够避免来自线性转录产物的干扰,可以精确的对环形RNA内部结构进行识别。结合长读段测序分析和实验验证,我们应用该算法全面调查了10种人类细胞系以及62种果蝇不同组织和发育时期样品中环形RNA的内部结构特征。研究发现,可变剪接事件在环形RNA内部普遍存在,在定位上有明显的核内倾向,同时表现出组织和发育阶段特异的表达模式。特别是,所发现的可变剪接在相对丰度上与mRNA显著不同,并有较大比例的外显子并不在后者中表达。结合位点分析则进一步表明环形可变剪接涉及到不同于mRNA的剪切因子,指示出环形RNA可变剪接可能受到独立于线性产物的调控作用,为其产生机制和功能的进一步研究提供了全新角度的观点。