论文部分内容阅读
生物染色质结构与基因的表达、转录、调控功能密切相关。利用显微镜技术观察染色质空间结构,分辨率较低,无法精准定位染色质空间结构与基因功能之间的关系。而高通量染色体构象捕获(Hi-C)技术的快速发展,为研究多尺度染色质结构提供了高分辨率的染色质交互作用数据,从而促进复杂疾病以及癌症的相关研究。基于不同分辨率下得到的Hi-C接触矩阵,可研究不同尺度的染色质结构,包括染色质环,拓扑相关结构域(TAD)和整体染色质三维空间结构。但针对上述研究,还存在以下问题:(1)直接从Hi-C数据中识别的调控性染色质交互作用比例过低;(2)已有的拓扑相关结构域识别和染色质三维空间重构算法,在高分辨率Hi-C数据集上,存在准确率低,计算复杂度过高的问题。针对上述问题,本论文以识别不同尺度下染色质结构为目的,面向高分辨率Hi-C数据,基于深度学习、密度聚类、非线性降维等计算方法,对不同尺度的染色质结构重构方法开展了深入研究。本论文的主要研究内容如下:1)基于多模态特征融合的调控性染色质交互作用识别算法(MINE-Loop)。为实现从低分辨率Hi-C数据中识别到高比例调控性染色质交互作用(RCI),本论文提出一个融合Hi-C数据和表观基因组数据的多模态特征的神经网络(MINE-Loop),以解决无法直接从稀疏Hi-C接触矩阵中学习RCI特征的问题。本方法首先分析了表观基因组数据特征与Hi-C数据中RCI的机理关系,然后将Hi-C数据和表观基因组数据的多模态特征作为网络的输入,将经过利用表观基因组数据掩膜处理后的Hi-C数据作为训练的目标Hi-C数据。通过改变用于生成目标Hi-C数据的表观基因组数据类型,本论文实现了对Hi-C数据中不同类型的RCI特征增强。结果表明,针对不同的目标数据,与直接从原始Hi-C数据识别RCI相比,可预测得到更多数量的激活型(或抑制型)染色质交互作用。2)基于层次密度聚类的拓扑相关结构域边界识别算法(CASPIAN)。针对已有拓扑相关结构域(TAD)识别算法参数过多,无法处理高分辨Hi-C接触矩阵的问题,提出了一种基于层次密度聚类算法的TAD边界识别方法(CASPIAN)。该算法首先对原始Hi-C数据去噪、归一化处理得到归一化后Hi-C接触矩阵,然后通过分析TAD在Hi-C接触矩阵中的信号分布特性,提出基于闵可夫斯基距离度量计算成对基因组位点的距离,然后基于层次密度聚类方法实现对基因组位点进行聚类,最后基于聚类结果实现对TAD的识别。结果表明,CASPIAN可同时实现对低、高分辨率Hi-C接触矩阵的TAD边界识别。CASPIAN定量化了 TAD边界锚定CTCF、H3K4me3等因子的比例,可均衡找出常染色质相关TAD和异染色质相关TAD。3)基于非线性降维与分治策略的染色质三维结构重构算法。本论文首先分析了 Hi-C接触矩阵和染色质三维结构中基因组位点对距离之间的关系,基于最短路径算法对Hi-C接触矩阵进行距离转换得到距离矩阵,将三维结构重构问题定义为从距离矩阵中恢复三维坐标位置的问题。针对从高分辨率Hi-C接触矩阵中重构染色质三维结构时间复杂度过高、准确率低的问题,首先利用Kullback-Leibler散度衡量输入距离矩阵和输出三维结构得到欧几里得距离之间的相异性,设计了基于非线性降维的低分辨率染色质三维结构重构算法(NeRV-3D),实现了低分辨率三维结构的准确重构;然后为减少对高分辨率三维结构重构的时间,提出基于分治策略的高分辨率三维结构重构算法(NeRV-3D-DC)。实验表明,与其他已有低分辨率和高分辨率三维结构重构算法相比,NeRV-3D和NeRV-3D-DC算法均具有更高的重构结构距离相似度,与荧光原位杂交技术获得的低分辨率三维结构位置相比,有更低的平均RMSE误差。4)基于Hi-C数据的多尺度染色质结构可视化系统(MINE)。本章基于研究内容 1、2、3 实现了包括 MINE-Loop、MINE-density 和 MINE-Viewer 三个模块的系统(MINE),以研究调控性染色质交互作用的空间密度与基因表达、染色质空间结构变化之间的关系。其中MINE-Loop用于检测调控性染色质交互作用;MINE-Density用于定量化计算由MINE-Loop识别的调控性染色质交互作用的空间密度(SD-RCI);MINE-Viewer用于三维可视化特定因子空间密度。在MINE应用方面,首先,基于SD-RCI提出了发达的激活中心(或抑制中心)、发展中的激活中心(或抑制中心)。最后将MINE系统应用到1,6-己二醇处理或未处理的HeLa细胞系获得的Hi-C数据,定量描述了染色质结构的变化。MINE系统可针对细胞分化过程中染色质构象变化和调控活性的不同方面进行定量研究。