论文部分内容阅读
作为染色质的基本结构和功能单元,染色质接触域由不同大小的共调控基因簇构成,其与基因调控和细胞的定向分化密切相关,在不同物种中具有一定的保守性。随着染色体构象捕获及其衍生技术的迅速发展,尤其是高通量Hi-C技术的出现,染色质三维交互作用数据日渐丰富,为染色质接触域及其边界的定位与检测提供了物质条件,使得相关领域的研究成为了表观遗传学研究的重要课题。但目前的染色质接触域及其边界检测工具及算法还非常有限,普遍存在可重复性差、运行时间成本高和检测准确率低等一系列问题,因此在已有算法基础上提出新的检测方法是弥补上述技术缺陷的关键。本文通过对现有两类代表性的染色质相互作用域检测方法进行系统比较与分析,选取了目前应用最为广泛的基于一维统计量方法,并在现有HiCDB和TopDom算法基础上提出了基于绝缘密度统计量来表征接触域边界强度变化的Hi-C绝缘密度检测算法(Hi-C Insulation Density,HiCID)。此外,为了提高原始Hi-C数据信噪比,本文将网络增强技术嵌入到数据预处理过程,并根据绝缘子结合蛋白(CTCF)与组蛋白修饰的富集丰度确定域边界的筛选阈值,同时为不同分辨率的Hi-C数据特征优化了滑动窗口的尺度和数量,为进一步利用统计学相关知识对结构域、域边界和无相互作用的染色体间隙进行划分提供了有利条件。最后,在接触域及其域边界处分别针对组蛋白化学修饰、RNA聚合酶II以及黏着蛋白复合亚基等与基因调控相关的元件进行基因特性分析,以获得基于染色质接触域边界的基因调控规律。与其他基于一维统计量的算法相比,本文提出的HiCID算法在一致性、准确性和稳健性方面均有了明显的改善和提升,尤其体现在染色质作用域及其边界定位精度上。本文定义的绝缘密度统计量从Hi-C接触矩阵图谱密度变化角度,重新刻画了染色质交互频率分布规律,并通过网络增强技术提高了原始Hi-C数据质量。此外引入介导蛋白CTCF与组蛋白修饰信息,联合确定域边界截止阈值,提高了所识别域边界的保守性。总之,HiCID算法在实际应用中具有对候选边界漏检率低,呈现出随Hi-C数据分辨率越高,算法稳定性越好的特征,同时有着较好的可移植性和冗余性。因此,该算法可广泛应用于对不同细胞染色质接触域及其域边界进行有效检测与识别。