论文部分内容阅读
真核生物基因的转录是高度复杂的一个过程,它需要多种类型基因调控元件、转录因子、转录辅因子等相互作用,时间和空间水平上精确协同控制基因的转录表达水平。启动子是能启动特定基因表达的一段DNA序列,坐落于基因5’端上游,具有转录起始特异性,启动子的识别和分析是表达调控研究的基础。内源环境中,启动子在其他调控元件和染色质三维构象等因素综合作用下启动转录,对于启动子自身序列的功能性分析是有限的。真核生物启动子包含核心启动子与近端调控序列,尽管核心启动子能够选择转录起始位点,但其起始的转录一般具有较低、基础水平的活性。转录因子在基因表达调控中能够招募转录辅因子,从而直接或间接地影响RNA聚合酶II的招募、启动和延伸,转录因子的结合区域大部分坐落于近端调控序列中。增强子同样是一类重要调控元件,通过招募转录因子、转录辅因子来激活、提高目的基因启动子的转录水平。增强子的功能通常认为与其相对于靶基因的位置、距离和方向无关。一个远端增强子通过在三维染色质空间结构中折叠基因组,创建染色质环与靶基因启动子元件互作,启动子-增强子相互作用在动物的发育、形态发生过程中起重要调控作用。长久以来,启动子和增强子被认为是两个不同的调控元件,它们坐落于基因的位置信息,组蛋白修饰状态和基因表达中的功能都有所差异。然而,近期一些相关研究表明,启动子和增强子在结构,功能方面存在一定共同的特性。部分启动子在报告基因分析中能够表现出增强子的功能并与其他启动子元件相互作用,性格研究表明K562和He La细胞中,2-3%的已注释启动子在两种细胞中表现出增强子活性,可调控远端基因。这些具有增强子功能的启动子的组蛋白修饰状态,H3K27ac/H3K4me3比值高于缺乏增强子功能的启动子。部分增强子同样可以被RNA聚合酶II及一般转录因子识别并结合,产生一类非编码增强子RNA(e RNA)。因此启动子自身序列的系统性功能分析是必要的,它有助于加深我们对调控元件中不同序列功能的了解。目前已经发明的在全基因组范围内鉴定启动子的方法,如Cap Analysis of Gene Expression(CAGE),Global Run-On Sequencing(GRO-seq),RNA Pol-II Ch IP-seq,Selftranscribing Active Core Promoter Sequencing(STAP-seq),Survey of Regulatory Elements(Su RE)等,在鉴定通量、分辨率、准确度等方面各具优缺点。CAGE依赖于5’m RNA测序,通过生物素标记m RNA的5’甲基鸟苷帽,链霉亲和素磁珠捕获生物素残基。GRO-seq通过测量新生RNA以观测基因组水平正在进行的转录,适用于长非编码RNA和新生不稳定RNA的检测。RNA Pol-II Ch IP是传统的表观遗传修饰分析方法,通过染色质免疫沉淀方法结合大规模并行测序,对相关的富集区域开发分类算法来预测启动子区域。由于RNA polymerase II结合区域并不只包括启动子,RNA polymerase II抗体本身也存在一定的非特异性。因此,RNA Pol-II Ch IP-seq达到较高的准确度具有挑战。STAP-seq通过构建筛选文库检测果蝇全基因组范围内包含核心启动子的较短片段(200bp左右)的活性和对特定增强子的响应。Su RE,则构建了一个带barcode的筛选文库,来评估数百万候选序列(0.2-2kb)的活性,0.2-2kb的片段包含有构成功能性启动子的大部分元件。通过barcode和插入片段的一一对应关系,绘制了人类细胞全基因组范围的启动子内源活性图谱。Su RE的缺陷在于,尽管通过生信的统计方法可以提高分辨率,但方法本身使得达到单核苷酸的分辨率具有挑战性。我们基于STAP-seq方法做出改进,兼顾高通量、高分辨率与准确度。本课题的研究内容主要分为两个部分:一是果蝇全基因组范围内自主性启动子的鉴定;二是来自于果蝇基因组DNA的数百万启动子候选序列对特定增强子copia的响应性。我们首先构建两个报告质粒文库,独立启动子鉴定文库在开放阅读框(GFP),聚腺苷酸化信号位点上游插入启动子候选序列。而增强子敏感性启动子鉴定文库在开放阅读框上游插入候选序列前需要在聚腺苷酸化信号位点下游插入一个特定的增强子序列。我们选择的待测片段大小为600bp-800bp,该片段可以较好地覆盖核心启动子及功能性启动子近端的上下游调控元件。并且候选片段在插入报告质粒之前两端各加上一个由12bp随机序列片段的barcode,该barcode可以帮助在后续实验过程中辨别是否扩增出了目的c DNA片段。我们将构建好的报告质粒文库瞬时转染果蝇S2细胞,24小时后观察荧光蛋白表达情况并收取细胞。只有含有功能启动子的片段才能启动转录,并转录得到带有barcode的m RNA。接下来从转染后的细胞中提取总RNA,磁珠纯化m RNA,在纯化m RNA的过程中,第一步使m RNA与总RNA分离时,需小心收集上清,用于构建质粒DNA文库。质粒DNA文库的构建过程较为简单,从上清中纯化质粒,使用Illumina i5,i7引物进行一定循环的PCR扩增,即可得到质粒文库。c DNA文库的构建则较为复杂,完成m RNA纯化后,将得到的m RNA逆转录为c DNA。然而,由于转录起始位点可能位于插入启动子候选序列片段的任意位置,转录后会丢失转录起始位点上游包括barcode和上游引物的序列。因此反转录后需要在c DNA上游加上一个接头,再进行后续的PCR扩增。单端加的接头经改良后带有8bp随机片段barcode,可用于分析是否是来源于同一个DNA模板的不同转录本。其后需经过两轮PCR扩增,通过单端加的上游引物和下游跨内含子引物进行第一轮扩增,使用i5和i7引物进行第二轮扩增,获得目的c DNA文库。通过收集表达谱数据,收集表观遗传数据,进行表观遗传修饰状态、基因表达、调控元件之间的相关性分析。本课题主要研究结果如下:在果蝇S2细胞全基因组范围内,鉴定可以自主转录的启动子序列。我们鉴定出18698个独立性启动子和14711个copia敏感性启动子。39.4%已注释转录起始位点与独立性启动子有重叠,而32.7%已注释转录起始位点与copia敏感性启动子有重叠,25.8%的独立启动子对copia具有响应性。独立启动子及copia敏感性启动子的全基因组范围分布状况相似,他们在转录起始位点上游50bp-200bp,转录起始位点下游50bp,5’端非翻译区,第一外显子和其他外显子区均表现出明显富集,相对来说更少地分布在在第一内含子,其他内含子,最后一个内含子,3’端非翻译区,基因间区和重复序列区域。与1000个copia响应度最强的启动子相比,1000个copia响应度最强的启动子在转录起始位点下游50bp,5’端非翻译区显著富集。启动双向转录是启动子序列的固有特性,可以被体外报告基因系统中检测到。与5’GRO-seq鉴定的内源环境中14548个新生RNA启动子相比,5632个5’GRO-seq鉴定出的启动子与STAPseq鉴定出的启动子重叠。5’GRO-seq启动子在TSS上游50bp-200bp、3’端非翻译区和重复序列区域上显著富集,在TSS上下游50bp、5’端非翻译区、第一外显子、其他外显子、第一内含子、其他内含子、最后内含子和基因间区富集较低。此外,启动基因转录的2076个启动子在STAPseq中被唯一检测到。这些启动子序列本身具有启动转录的能力,但在内源环境中可能受到其他因素的抑制。独立启动子在H3K4me3、H3K4me2、H3K9ac、H2Av和H2BK5ac中均有显著富集。与已注释转录起始位点重叠的启动子富集程度高于未与已注释转录起始位点重叠的启动子富集程度。对于copia敏感启动子,相比于copia响应度最高的1000个启动子,copia响应度最低的1000个启动子在H3K4me3、H3K4me2、H3K9ac、H2Av和H2BK5ac中富集程度更高。我们系统性地评估了来自于果蝇基因组DNA的数百万启动子候选序列对特定增强子copia的响应性,发现启动子增强子之间响应性与相关基因功能具有联系。响应性强的启动子更倾向于启动与发育过程相关的基因转录,响应性弱的启动子更倾向于启动与转录后调控、翻译等管家基因的转录。