论文部分内容阅读
染色质三维结构在基因表达调控、细胞发育以及疾病发生过程中起着重要作用。在过去,人们主要依赖显微技术来研究染色质的空间组织模式。近年来,染色质构象捕获技术,特别是能够在全基因组范围捕获染色质交互的Hi-C技术,极大地提高了研究染色质结构的精度和通量,推动了人们对染色质层次化结构的认识。染色质拓扑相关结构域(topologically associating domains,简称TADs)是染色质高阶结构中重要的结构单元,它广泛存在于各个物种中,其位置在细胞发育甚至进化中都是非常保守的。在功能上,TADs限定了增强子与启动子的空间交互范围,是基因表达、DNA重组、基因组复制调控的基本单元。传统上,人们对TADs内部结构认识较少,本文深入研究了TADs内部染色质交互的分布特征,分别提出了TADs总体结构度量指标和层次化结构域识别算法,用于研究TADs内部结构特征和功能。首先,本文分析了TADs内部显著性交互的聚集模式,定义了一种能够衡量TADs内部总体结构特征的量化指标—聚集偏好指数(aggregation preference,简称AP)。接着,本文使用AP指数对TADs进行结构注释,将TADs内部结构与功能相关联。具体地讲,我们分析了来自人类和小鼠9个细胞系的11组传统Hi-C和原位Hi-C数据,发现AP值较为均匀地分布在0-1之间,说明TADs具有较强的结构异质性。通过整合DNA序列特征、表观修饰以及基因表达数据,我们发现AP值与染色质活跃状态呈现出显著的正相关关系。最后,细胞系间的比较结果表明,不同细胞系中TADs内部结构的重排与基因表达调控的改变密切相关。其次,TADs并不是单一层次的结构,它们常常是以一种层次化的形式组织起来的,因此开发层次化结构域的识别算法对分析不同层次结构域在染色质结构组织和功能上的差异具有重要意义。针对这个问题,本文综合利用染色质局部和远程交互,在传统定义的基础上进一步将TADs精细定义为“在指定目标函数下能够最佳分割染色质内交互的结构域集”,并递归地将其内层结构域定义为“在指定目标函数下最佳分割上一层次结构域内染色质交互的结构域集”。通过新的TADs定义,我们开发了Hi TAD算法来识别层次化结构域,并使用来自人类和小鼠7个细胞系的传统Hi-C和原位Hi-C数据从多个角度对其进行了交叉验证。计算结果表明,Hi TAD在敏感性、可重复性以及细胞系间的保守性方面均优于现有软件Arrowhead和TADtree;Hi TAD识别的不同层次结构域均表现出与传统单一层次TADs类似的属性,如“边界绝缘性”、“边界信号富集”以及“转录因子CTCF结合DNA序列的方向性”等。为方便不同结构域集合之间的比较,我们开发了层次化结构域比对算法,并利用此算法定义了多种结构域边界以及结构域变化模式。以边界为基础,我们研究了不同层次结构域在关联染色质区室(compartments)和基因组复制上的差异,发现TADs而非Sub-TADs是染色质区室和基因组复制调控的基本单元;以结构域为基础,我们发现TADs和Sub-TADs在基因调控中亦扮演着截然不同的角色。综上所述,本文提出了能够反映TADs内染色质交互聚集程度的AP指数和识别TADs内部层次化结构域的Hi TAD算法,进而从不同角度研究了TADs内部结构和生物功能之间的联系。