论文部分内容阅读
基因组的空间结构与细胞功能密切相关,例如基因表达与调控、细胞分化与鉴定、组织发育等。线性DNA长度约为2米,它被高度填充在染色质上并适应于细胞核的大小。对于一个给定的物种,不同的细胞基因组相同,但是基因表达具有细胞和组织特异性。随着测序技术和生物技术的迅速发展,例如Hi-C、原位Hi-C已被开发出来用于研究不同人类细胞染色质空间结构。研究发现基因组DNA结构可以划分成四种不同分辨率的层次结构,如染色体边界(50-250 MB)、A/B Compartment(~5 MB)、TAD(~1 MB)或sub-TAD(0.1-1 MB)、Chromatin Loops(5-300 kb)。在这些结构中,Chromatin Loops是其他高级结构的基础,它能在三维空间中帮助远端调控元件比如增强子调控启动子从而影响基因的转录和表达。目前增强子与启动子交互作用识别主要通过染色质构象捕获技术进行,具有噪声高、精度低、时间长和成本高等缺点。因此从计算的角度对增强子与启动子交互作用及其模式进行研究就显得十分迫切和重要。尽管Chromatin Loops在基因调控和疾病中发挥着重要的作用,但是具体的调控机制特别是涉及到分子比如蛋白质的仍然知之甚少。在本课题中,本课题组提出了HidPET(基于ChIA-PET和ChIP-Seq数据探究转录因子协同合作的层次性和动态性)方法。该方法通过集成ChIA-PET和ChIP-Seq数据来研究转录因子协同合作网络的层次性和动态性。以人类四个细胞系(K562、GM12878、HUVEC、MCF7)为例,利用ChIA-PET染色质三维结构数据和染色质状态数据筛选出在染色质交互作用中扮演重要角色的增强子-启动子交互,基于给定的转录因子PWM矩阵对增强子-启动子交互进行扫描,加入蛋白质-蛋白质交互数据作为三维转录因子交互从而形成三维交互网络;基于ChIP-Seq线性基因组中转录因子的位置信息计算转录因子的相关性从而构建一维相关性网络;将三维网络和一维网络进行融合之后对融合后的网络进行层次结构和局部网络参数的计算。通过层次性结构、社区结构和网络子图的分析详细解释了转录因子协同相互作用调节基因表达和三维结构的层次性和动态性特征,提出三种具体协同调控模式,并结合基因进化、共表达、甲基化等进行功能性的分析。