多尺度染色质结构重构方法研究

被引量 : 0次 | 上传用户:saraxian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物染色质结构与基因的表达、转录、调控功能密切相关。利用显微镜技术观察染色质空间结构,分辨率较低,无法精准定位染色质空间结构与基因功能之间的关系。而高通量染色体构象捕获(Hi-C)技术的快速发展,为研究多尺度染色质结构提供了高分辨率的染色质交互作用数据,从而促进复杂疾病以及癌症的相关研究。基于不同分辨率下得到的Hi-C接触矩阵,可研究不同尺度的染色质结构,包括染色质环,拓扑相关结构域(TAD)和整体染色质三维空间结构。但针对上述研究,还存在以下问题:(1)直接从Hi-C数据中识别的调控性染色质交互作用比例过低;(2)已有的拓扑相关结构域识别和染色质三维空间重构算法,在高分辨率Hi-C数据集上,存在准确率低,计算复杂度过高的问题。针对上述问题,本论文以识别不同尺度下染色质结构为目的,面向高分辨率Hi-C数据,基于深度学习、密度聚类、非线性降维等计算方法,对不同尺度的染色质结构重构方法开展了深入研究。本论文的主要研究内容如下:1)基于多模态特征融合的调控性染色质交互作用识别算法(MINE-Loop)。为实现从低分辨率Hi-C数据中识别到高比例调控性染色质交互作用(RCI),本论文提出一个融合Hi-C数据和表观基因组数据的多模态特征的神经网络(MINE-Loop),以解决无法直接从稀疏Hi-C接触矩阵中学习RCI特征的问题。本方法首先分析了表观基因组数据特征与Hi-C数据中RCI的机理关系,然后将Hi-C数据和表观基因组数据的多模态特征作为网络的输入,将经过利用表观基因组数据掩膜处理后的Hi-C数据作为训练的目标Hi-C数据。通过改变用于生成目标Hi-C数据的表观基因组数据类型,本论文实现了对Hi-C数据中不同类型的RCI特征增强。结果表明,针对不同的目标数据,与直接从原始Hi-C数据识别RCI相比,可预测得到更多数量的激活型(或抑制型)染色质交互作用。2)基于层次密度聚类的拓扑相关结构域边界识别算法(CASPIAN)。针对已有拓扑相关结构域(TAD)识别算法参数过多,无法处理高分辨Hi-C接触矩阵的问题,提出了一种基于层次密度聚类算法的TAD边界识别方法(CASPIAN)。该算法首先对原始Hi-C数据去噪、归一化处理得到归一化后Hi-C接触矩阵,然后通过分析TAD在Hi-C接触矩阵中的信号分布特性,提出基于闵可夫斯基距离度量计算成对基因组位点的距离,然后基于层次密度聚类方法实现对基因组位点进行聚类,最后基于聚类结果实现对TAD的识别。结果表明,CASPIAN可同时实现对低、高分辨率Hi-C接触矩阵的TAD边界识别。CASPIAN定量化了 TAD边界锚定CTCF、H3K4me3等因子的比例,可均衡找出常染色质相关TAD和异染色质相关TAD。3)基于非线性降维与分治策略的染色质三维结构重构算法。本论文首先分析了 Hi-C接触矩阵和染色质三维结构中基因组位点对距离之间的关系,基于最短路径算法对Hi-C接触矩阵进行距离转换得到距离矩阵,将三维结构重构问题定义为从距离矩阵中恢复三维坐标位置的问题。针对从高分辨率Hi-C接触矩阵中重构染色质三维结构时间复杂度过高、准确率低的问题,首先利用Kullback-Leibler散度衡量输入距离矩阵和输出三维结构得到欧几里得距离之间的相异性,设计了基于非线性降维的低分辨率染色质三维结构重构算法(NeRV-3D),实现了低分辨率三维结构的准确重构;然后为减少对高分辨率三维结构重构的时间,提出基于分治策略的高分辨率三维结构重构算法(NeRV-3D-DC)。实验表明,与其他已有低分辨率和高分辨率三维结构重构算法相比,NeRV-3D和NeRV-3D-DC算法均具有更高的重构结构距离相似度,与荧光原位杂交技术获得的低分辨率三维结构位置相比,有更低的平均RMSE误差。4)基于Hi-C数据的多尺度染色质结构可视化系统(MINE)。本章基于研究内容 1、2、3 实现了包括 MINE-Loop、MINE-density 和 MINE-Viewer 三个模块的系统(MINE),以研究调控性染色质交互作用的空间密度与基因表达、染色质空间结构变化之间的关系。其中MINE-Loop用于检测调控性染色质交互作用;MINE-Density用于定量化计算由MINE-Loop识别的调控性染色质交互作用的空间密度(SD-RCI);MINE-Viewer用于三维可视化特定因子空间密度。在MINE应用方面,首先,基于SD-RCI提出了发达的激活中心(或抑制中心)、发展中的激活中心(或抑制中心)。最后将MINE系统应用到1,6-己二醇处理或未处理的HeLa细胞系获得的Hi-C数据,定量描述了染色质结构的变化。MINE系统可针对细胞分化过程中染色质构象变化和调控活性的不同方面进行定量研究。
其他文献
兼具优异耐腐蚀性能和良好力学性能的超级奥氏体不锈钢被广泛应用于海洋工程、石油化工及火电核电等行业所用高端装备。随着国内高端装备制造业的迅猛发展,关于超级奥氏体不锈钢的开发与研究工作变得尤为重要。904L、S31254等超级奥氏体不锈钢国内已经实现稳定化生产,但对钼氮含量更高、技术难度更大的S32654的生产与研发还存在诸多问题。关于这种高钼高氮超级奥氏体不锈钢的理论知识及生产技术的研究还较为匮乏,
学位
近年来,强化学习在各个领域都取得了令人瞩目的成就。针对不同的应用场景,研究人员提出不同的强化学习方法来克服各种困难,其中一类强化学习方法是建立在执行-评判结构上,即自适应评判设计,被广泛应用到智能控制领域。考虑到绝大部分动态系统的状态空间和动作空间是连续的,所以,需要在评判结构里引入函数逼近器来估计状态和动作的价值。在智能控制领域,将融合了动态规划、函数逼近技术和执行-评判结构的一类方法统称为自适
学位
期刊
Fe-Co软磁合金是一种比较广泛实际使用的软磁合金,其突出性能优势是非常高的饱和磁化强度和高居里温度。不过,随着软磁合金应用领域的扩展,对合金的性能提出了全新要求。铁芯合金不仅需要具有良好的磁性能以满足电磁组件的功能性要求,还必须同时具备良好的强度、塑性及冲击韧性要求。目前,已经比较成熟应用的Fe-Co软磁合金具备良好的磁性能,但其力学性能、尤其是冲击韧性还亟待改进。Fe-Co合金相图显示,铁钴合
学位
大多数物理系统,例如机器人、无人车、无人船和无人机等,呈现高度的非线性和强耦合特征,且工作环境恶劣多变,无法获得精确的数学模型,使得解决此类系统的控制问题较难。此外,由于物理条件的限制以及安全性的考虑,在运行过程中系统状态要求满足一定的约束条件,否则可能导致系统性能的恶化。为此,本文针对不确定非线性系统的输出约束、状态约束和性能约束开展研究工作,具体内容如下:1)针对不确定单输入单输出非线性系统,
学位
现阶段,基于传感器数据的室内活动识别技术逐渐成为智慧医养、智能家居等领域的研究热点。马尔可夫逻辑网(Markov Logic Network,MLN)作为一个附有权重的最优或次优一阶逻辑规则集,能够通过结构学习构建用户活动间关系以及活动规则,进一步完成室内活动识别。然而,随着传感器种类日渐增多,室内用户活动间关系以及活动规则变得复杂,基于MLN结构学习开展室内活动识别时面临持续性差、实时更新慢、交
学位
随着边缘设备的增多,物联网中信息传输密度的增加对通信网络中的信息处理时延和边缘设备能耗提出了更高的要求,这些要求也对物联网中的恶意软件识别提出了新的挑战。首先,目前的恶意软件识别方法主要关注于桌面端和移动端恶意软件,难以有效防范物联网平台的恶意攻击,也无法满足物联网边缘计算设备低内存占用和检测时间的要求。其次,针对新兴的机器学习恶意软件识别方法,规避攻击技术使用伪装策略降低了模型的识别能力。尤其是
学位
包气带顶部土壤层对Cr(Ⅵ)经地表向地下水的迁移具有不同程度的迟滞效应,究其原因主要与土壤有机质含量有关。土壤腐殖质是土壤有机质的主要组分,具有很强的化学非均质性,不同土壤腐殖质组分在分子结构特征和官能团组成方面存在很大差异。为了明确土壤腐殖质化学非均质性对Cr(Ⅵ)迁移迟滞效应的作用机制,亟待开展有关不同土壤腐殖质组分官能团对Cr(Ⅵ)作用机理方面的研究,这对进一步认识Cr(Ⅵ)在包气带土壤层中
学位
期刊
协作机器人是一种能与人类在共享空间中直接近距离互动的机器人。由于其具有安全、低成本、部署灵活、操作简单等特点,近年来在工业制造、医疗康复、仓储物流、家庭服务等领域被广泛应用。然而,随着协作机器人从简单环境与低难度任务转向复杂非结构化环境与高难度任务,加之其关节刚性较低导致重复定位精度较差,因此,协作机器人面临运动规划、高精度轨迹跟踪控制等难题。为此,本文重点研究协作机器人模仿学习运动规划技术与柔性
学位