论文部分内容阅读
随着植物表观遗传学的发展,植物表观基因组数据呈大幅度增长的趋势,急需对多种表观基因组数据进行有效整合和集成分析,这将有助于注释基因组的功能元件,并对表观遗传机制进行深入地解析。然而,相比于人类基因组研究,目前植物的表观基因组整合和分析平台还很有限,同时,如何针对不同的植物数据类型选取合适的软件工具组合并构建相应的分析流程也是数据整合过程中面临的挑战。因此,建设一个有效的植物表观基因组数据整合与挖掘平台显得尤其重要。本研究利用染色质状态识别结合自组织映射(self-organization mapping,SOM)图谱的手段整合、可视化和分析海量的植物表观基因组数据,探究表观遗传因子的协同关系和对基因表达的调控。首先,我整合了来自公共平台和实验室内部产生的216个拟南芥表观基因组数据,利用隐马尔可夫模型(ChromHMM)的算法将拟南芥基因组划分成36种染色质状态,共包括290,553个片段。我根据表观遗传标记组合方式和富集的特征区域对每个染色质状态进行注释,并根据其活性使用不同的颜色进行标注。同时,我利用SOM算法将拟南芥基因组片段根据多种表观基因组数据的信号值聚类,重新排列至一个30X45的SOM图谱中。我构建了一个植物染色质状态数据库(PCSD,http://systemsbiology.cau.edu.cn/chromstates),目前包括拟南芥(Arabidopsis thaliana)、水稻(Oryza sativa)和玉米(Zea mays)三个物种,整合了染色质状态、SOM图谱和表观遗传标记特征等信息,以UCSC基因组浏览器和SOM图谱作为可视化工具展示表观基因组数据。植物染色质数据库中还整合了 motif和GO分析工具,可以对查询到的感兴趣片段和相关基因进行功能分析。另外,PCSD数据库还提供表观基因组数据分析工具,用于染色质状态和SOM图谱比较分析。利用PCSD数据库,还可以分析家族同源基因之间染色质状态的保守性和多样性,查询了激素相关基因上游结合的转录因子,等等。除了有助于发现隐藏在基因组中的功能元件,植物染色质状态分析平台还有利于深入解析植物生长发育和逆境胁迫应答的表观遗传调控机制。黑暗胁迫导致叶片衰老、下胚轴和叶柄的伸长、提前开花等复杂的性状,目前大规模转录组数据揭示黑暗处理后包括转录因子在内的衰老相关基因的表达发生了显著变化,但是,对于黑暗胁迫下表观遗传调控及其协同作用的研究还未见报道。为了深入研究黑暗胁迫下表观遗传标记的特征及动态变化,我分别对DHSs、组蛋白修饰和small RNA特征进行高通量测序分析,比较黑暗胁迫和正常光照条件下这些表观遗传标记的区别,并结合了转录组数据,挖掘黑暗胁迫下的关键基因,构建相应的调控通路和网络。同时,我进一步利用PCSD平台中的SOM图谱对黑暗胁迫下的多种表观基因组数据进行集成分析。我先利用DNase-seq分析,探索拟南芥长时间黑暗处理后染色质开放区域的变化及其与基因表达之间的关系。我发现黑暗处理后常染色质区域的DNaseⅠ超敏感位点(DNase Ⅰ hypersensitivity sites,DHSs)明显减少,但DHSs增加的区域主要是在位于着丝粒附近的Gypsy型TE的位置上,提示黑暗处理可能使常染色质紧密而异染色质疏松。同时,我结合RNA-seq分析了 DHSs对基因表达的影响,发现黑暗处理下DHS信号减少且下调的基因主要与光合作用相关,且通过转录因子和motif富集分析,发现这些光合作用相关的基因在黑暗处理下受到抑制,可能与逆向信号通路中关键因子GLK1的调控有关。此外,我还发现一些参与RdDM途径的基因在黑暗处理下DHSs和表达有减少的趋势,接着我利用sRNA-seq分析TE相关的siRNA,发现siRNA在黑暗处理后的表达变化与DHSs的变化相一致,这进一步说明了在黑暗胁迫下DHSs影响了 TE的活性。除了 DNase-seq数据分析,我还利用ChIP-seq数据研究了黑暗胁迫下的H3K4me3和H3K27me3动态变化。我发现黑暗处理下H3K4me3修饰的水平呈现增加趋势。结合RNA-seq数据分析,我鉴定了黑暗处理后H3K4me3修饰水平增加且表达上调的474个基因,GO和GSEA功能富集分析发现这些基因主要与衰老和自噬作用相关,说明黑暗胁迫下衰老和自噬作用与H3K4me3的调控密切相关。此外,我对黑暗胁迫和自然衰老下的H3K4me3水平进行比较分析,发现H3K4me3的变化在两种情况下既有交叉又有差异。同时,我发现黑暗处理后许多转录因子和miRNA的H3K27me3水平降低。MADS、WRKY和MYB等与发育和环境适应相关的转录因子黑暗处理后H3K27me3发生了变化。另外,我还发现黑暗胁迫下很多miRNA的表达水平发生了变化,其中包括与叶片发育和开花相关的miRNA。最后,我利用PCSD平台中的SOM图谱对表观基因组数据集成分析,发现黑暗胁迫使DHSs、H3K4me3、H3K27me3在其特征区域发生明显的变化,DHSs和H3K27me3主要表现为黑暗减少,而H3K4me3主要表现为黑暗增加。通过对这些变化区域中相关基因进行分析,发现不同表观遗传标记变化所影响的基因存在差异。例如,DHSs的变化主要调控了光合作用相关的基因,H3K4me3的变化调控了衰老和自噬作用相关的基因。这些结果说明了黑暗胁迫下DHSs、H3K4me3、H3K27me3、small RNA等表观遗传标记各司其职,协同调控基因的表达,影响叶片衰老、下胚轴和叶柄生长、早开花等表型。通过对黑暗胁迫下不同表观遗传标记的协同作用进行分析,既直观地展示了多种表观遗传标记在黑暗胁迫下的动态变化和协同调控,也测试了 PCSD分析平台的有效性和实用性。综上所述,我收集了公共平台和本实验室自行产生的拟南芥表观基因组数据,利用染色质状态识别并结合SOM图谱的方法对其整合,构建了一个表观基因组数据集成分析和可视化平台,即植物染色质状态数据库(PCSD),以便利于注释基因组上的功能元件,探究表观遗传因子对基因表达的调控机制。进而我利用多种表观基因组数据集成分析探索了黑暗胁迫下的表观遗传调控机制。我整合分析了 DNase-seq、ChIP-seq、sRNA-seq等多种表观基因组数据及转录组RNA-seq数据,对表观遗传标记的变化规律进行探索,并结合了染色质状态识别和SOM图谱的方法探究表观遗传的协同调控,以期从表观遗传的水平上揭示拟南芥应答黑暗胁迫的表观调控机制。