论文部分内容阅读
哺乳动物的染色体折叠缠绕在细胞核内,其复杂的结构形态是影响基因调控、细胞内生物过程、细胞分化、进化的重要因素。随着染色质构象捕获(chromosome conformation capture,3C)技术及其衍生技术的发展,逐步揭示了三维基因组多尺度的拓扑结构,从MB尺度激活或者非激活的染色质区室(compartments),到百KB尺度的拓扑结构关联域(topologically associated domains,TADs)或者子拓扑结构关联域(sub-TADs),再到更为精细的染色质环(chromatin loops)。这些结构决定了细胞核内基因和调控元件的位置和拓扑形态,进而影响基因组的转录调控。随着多组学单细胞技术的成熟,将提供前所未有的机会更深层次解析细胞内生物过程的发生,以及细胞类型或者组织特异的拓扑结构及表观调控。而基因组调控过程通过转录因子(transcription factors,TFs)组合结合于调控元件位点驱动,从而调控靶基因的转录,决定细胞内生物过程的发生。本文研究了细胞核内多尺度拓扑结构识别和表观调控建模方法。基于不同类型的三维基因组数据,提出了一种高效通用的多尺度拓扑结构域识别方法,进而基于基因组多尺度的拓扑结构,提出了一种有效的环形轨迹重构方法,以解释单细胞分辨率下的细胞周期过程,最后通过一种数据集成方法,识别驱动基因组表观调控的转录因子组合交互,最后本文主要的研究工作如下:1.针对现有结构域检测方法仅基于对称Hi-C图谱设计,忽略结构域之间的远程交互,提出了一种从多种三维基因组图谱识别多尺度拓扑结构域的通用有效方法MSTD(multi-scale topological domains)。首先应用MSTD从17个血细胞的启动子捕获Hi-C图谱中识别多尺度启动子锚定的交互结构域(promoter-anchored interaction domains,PADs)。PADs的边界显著富集一种或多种表观遗传因子的组合。此外,功能相似细胞类型的PADs表现出显著高的保守性和更一致的基因表达水平。细胞类型特异的PADs通过其内部动态交互参与细胞类型特异的调控事件。最后,应用MSTD从典型的对称Hi-C图谱中识别多尺度拓扑结构域,并说明其相较于现有方法在准确性,灵活性和效率方面的优势。2.单细胞Hi-C技术的兴起提供了前所未有的机遇在单细胞分辨率下阐明染色质构象的动态变化。如何利用单细胞Hi-C图谱刻画细胞的伪时间序列仍是必不可少且具有挑战性的问题。为此,提出了一种有效鲁棒的环形轨迹重构方法CIRCLET,该方法针对染色质结构多尺度特征,并无需指定起始细胞,用以排序单细胞周期相位。重构轨迹在设计的评估指标和验证策略上表现出最佳性能。将该轨迹进一步划分为12个子周期有助于准确刻画染色质结构的动态性,并解释细胞周期过程中的特异表观调控,揭示与动态结构相关的重要调控基因,为在单细胞分辨率下发现重要调控位点甚至癌症标志物提供新框架。3.针对TF组合交互研究中缺乏相同细胞环境中的实验数据,以及广泛存在的数据噪声,采用了贝叶斯CP分解方法(Bayesian CANDECOMP/PARAFAC factorization approach,BCPF)将多种类型数据集成到网络范式中,以精确识别TF交互全局景观。第一个应用中,通过BCPF方法集成DNA元件百科全书计划(Encyclopedia of DNA Elements,ENCODE)中不同类型数据集构建的三个网络,以精确预测全局TF交互网络,该网络发现了38个具有不同生物功能的TF交互。第二个应用中,将BCPF应用于7种类型的TF调控网络,以预测7个细胞谱系TF交互网络。通过进一步研究它们的动态性和模块性,发现细胞谱系特异的中枢TFs通过与非特异的TFs交互参与细胞类型或谱系特异的调控。此外,以癌症谱系和血液谱系为例说明中枢TFs的生物学功能。总之,此研究更精确和广泛地揭示了人类TF的组合交互远景。