论文部分内容阅读
染色体三维重构是近年表观遗传和基因组学的研究热点,其中一个最主要的方法是利用测序技术获得染色体空间结构信息,即根据染色体二维接触频率数据来预测其在细胞核中的三维形态。越来越多的研究表明,染色体的三维空间结构对于DNA转录、复制和修饰等细胞进程有着重要影响。利用三维重构信息揭示染色体空间交互作用网络和基因共调控区域,有助于我们从不同层次和维度了解基因组的复杂行为。随着基于3C等染色体构象捕获技术的出现,高通量的Hi-C测序技术具备了在全基因组高效、精准检测染色体空间接触作用的能力,使得系统构建全基因组三维结构成为了可能。本文主要完成了以下三部分工作。一、系统研究了两种最具代表性的染色体三维结构模型:即ShRec3D算法和最大似然算法。全面比较了二者的优缺点,扬长避短,为提出变步长自适应最大似然算法作理论铺垫。二、根据酵母染体Hi-C数据的统计特征,分别建立了16条染色体接触矩阵分布模型。在此基础上,引入了变步长自适应最大似然算法实现酵母染色体的三维重构,为分析与染色体的结构有关的共调控区域提供了可视化依据。三、基于三维重构模型,本文对酵母染色体特定共调控区域的染色体结构和基因属性进行了分析。本文的具体实验内容和结论如下:在分别利用ShRec3D和最大似然算法对酵母Hi-C数据进行三维重构过程中发现:(1)ShRec3D算法在重构染色体三维结构时,其距离转换函数使用固定转换参数,在实际应用中缺乏自适应性;(2)最大似然算法在迭代时使用了相同的目标函数和固定的学习速率,在处理不同染色体数据时有明显的局限性。在此,本文针对ShRec3D算法和最大似然算法的不足优化出了变步长自适应最大似然算法。变步长自适应最大似然算法在重构染色体三维结构时,根据不同染色体Hi-C数据计算出最大的距离斯皮尔曼相关系数,自动获得距离转换函数中的最优转换参数。由距离转换函数得到的距离矩阵再经最短路径算法优化后,使其满足实际几何空间距离约束条件,以减少误差。针对原最大似然算法使用单一目标函数的缺陷,为提高算法的自适应性,本文提出一种对Hi-C数据分布特征进行拟合的方法,最终选取了以高斯作为核函数的独立同分布模型,其具有拟合优度高、误差较小的优点。在目标函数迭代优化过程中,本文在梯度上升算法中引入学习速率自适应策略,进一步提高了模型的自适应性和准确性,并通过DSCC,DPCC和DRMSE三个重要指标对获得的染色体三维结构进行评估。最后,本文介绍了染色体三维结构模型在基因共调控域研究中的实际应用。通过模型定位染色体折叠区域中的部分共调控域,本文分析了共调控域中基因转录起始位点上、下游1000bp范围内核小体占位率,蛋白质置换水平,组蛋白修饰水平以及聚合酶Pol II的分布特征。