论文部分内容阅读
细胞核是真核生物特有的,最大的细胞器。染色质是遗传和表观遗传信息的载体,并且是最大的生物大分子。大约2m长的染色质被折叠进直径小于10μm的细胞核。染色体构象捕获(3C)技术以及一系列它的衍生技术(4C、5C、Hi-C)的发展促进了核结构的研究。这些技术揭示了一些蛋白如CTCF,Cohesin等在染色质折叠和相互作用中发挥重要的作用。最近发现一些lncRNAs也参与了染色质的相互作用。lncRNAs通过与DNA、蛋白质,甚至与RNA本身相互作用,参与了染色质相互作用并调控了核结构的形成,比如XIST,Firre等。因为基因组的大部分编码为ncRNA,我们猜测也许很多lncRNA参与了核结构的调控。但是直到现在,也没有任何系统的关于lncRNA参与染色质相互作用的报道。为了在全基因组范围内筛选可能参与染色质相互作用的lncRNAs,我们建立了一种基于Hi-C技术的高通量筛选的方法,它是通过对比RNase处理前后基因组范围的染色质相互作用来实现的。建立高质量的Hi-C文库是整个课题的关键。Hi-C技术是一个多步骤、耗时较长的分子生物学技术,需要多种试剂和仪器。这个技术还不是很成熟,到现在为止它的重复性还不是很好很稳定。通过优化复杂的Hi-C实验中最核心的步骤如交联、酶切、限制性内切酶的失活和原位连接等,我们建立了一个成熟的、稳定的Hi-C建库流程。在初始Hi-C文库进行扩增之后,将GM12878细胞的RNase处理前后的两组生物学重复Hi-C文库进行了高通量测序。在初步的生物信息学分析之后,文库的质量及生物学重复的重复性得到检验。平均来说,原始数据中大概有90%的比对率,72%的配对率。此外,在去除自连片段和dangling-ends后,能够获得超过96%的有效相互作用对。相关性分析显示,两组生物学重复的bin coverage和all bin pairs的相关性都极强。所有这些结果进一步证明了优化了的Hi-C建库流程是可靠并且稳定的。在获得了高质量并且高度重复性的文库后,我们进一步对照分析了RNase处理前后样品文库的结果。对比分析显示,在RNase处理之后很多相互作用减弱甚至是消失了。在建库过程中也发现,和RNase处理组相比,同样细胞量的正常组得到了1.58倍的初始Hi-C文库(相互作用片段)。在两组生物学重复的正常组和RNase处理组扣减后,我们选择正值前10000对差异相互作用进行下一步的分析。最后发现在RNase处理后消失或减弱的染色质相互作用位点附近存在4081个lncRNAs编码基因。GO注释显示,这4081个lncRNAs编码基因附近的基因主要和细胞膜、Pleckstrin homology-like domain、铵离子转运、可变剪接等生物学结构或功能相关。筛选到的这4081个lncRNAs是潜在的可能参与染色质相互作用的,这为进一步研究它们的分子机制和功能提供了一个很好的基础。