基于Hi-C数据的染色质接触域边界检测与应用研究

来源 :云南民族大学 | 被引量 : 0次 | 上传用户:qq503302228
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为染色质的基本结构和功能单元,染色质接触域由不同大小的共调控基因簇构成,其与基因调控和细胞的定向分化密切相关,在不同物种中具有一定的保守性。随着染色体构象捕获及其衍生技术的迅速发展,尤其是高通量Hi-C技术的出现,染色质三维交互作用数据日渐丰富,为染色质接触域及其边界的定位与检测提供了物质条件,使得相关领域的研究成为了表观遗传学研究的重要课题。但目前的染色质接触域及其边界检测工具及算法还非常有限,普遍存在可重复性差、运行时间成本高和检测准确率低等一系列问题,因此在已有算法基础上提出新的检测方法是弥补上述技术缺陷的关键。本文通过对现有两类代表性的染色质相互作用域检测方法进行系统比较与分析,选取了目前应用最为广泛的基于一维统计量方法,并在现有HiCDB和TopDom算法基础上提出了基于绝缘密度统计量来表征接触域边界强度变化的Hi-C绝缘密度检测算法(Hi-C Insulation Density,HiCID)。此外,为了提高原始Hi-C数据信噪比,本文将网络增强技术嵌入到数据预处理过程,并根据绝缘子结合蛋白(CTCF)与组蛋白修饰的富集丰度确定域边界的筛选阈值,同时为不同分辨率的Hi-C数据特征优化了滑动窗口的尺度和数量,为进一步利用统计学相关知识对结构域、域边界和无相互作用的染色体间隙进行划分提供了有利条件。最后,在接触域及其域边界处分别针对组蛋白化学修饰、RNA聚合酶II以及黏着蛋白复合亚基等与基因调控相关的元件进行基因特性分析,以获得基于染色质接触域边界的基因调控规律。与其他基于一维统计量的算法相比,本文提出的HiCID算法在一致性、准确性和稳健性方面均有了明显的改善和提升,尤其体现在染色质作用域及其边界定位精度上。本文定义的绝缘密度统计量从Hi-C接触矩阵图谱密度变化角度,重新刻画了染色质交互频率分布规律,并通过网络增强技术提高了原始Hi-C数据质量。此外引入介导蛋白CTCF与组蛋白修饰信息,联合确定域边界截止阈值,提高了所识别域边界的保守性。总之,HiCID算法在实际应用中具有对候选边界漏检率低,呈现出随Hi-C数据分辨率越高,算法稳定性越好的特征,同时有着较好的可移植性和冗余性。因此,该算法可广泛应用于对不同细胞染色质接触域及其域边界进行有效检测与识别。
其他文献
FFU其含义为“风机过滤单元”,它是由离心式风机、静音设备和过滤网组成的室内空气净化设备。主要用于食品、医药、精密电子等有着高洁净度要求的厂房中,以达到实时净化空气
针对物流行业分拣作业杂乱无章的特点和作业环境安全性的问题,本文通过使用协作式工业机器人代替人工完成物品无序分拣作业的方法,提高了机器人在非结构性环境中执行任务的灵
~~
会议
食品安全关系着人们的健康与社会稳定性,因此,食品安全问题不仅吸引着无数学者从技术层面改善食品安全问题,还有政府部门和相关机构试图从政策法规层面改善食品安全问题,此外
分析学说和实务观点,可以看出关于历史素材在著作权法上的性质有两种看法:一种看法是依据思想表达二分法,认为历史素材属于思想范畴;另一种看法是认为历史素材属于公有领域的
本文是一篇以译文反复修改、多重审校、全面提高为特色的英译汉笔译项目实践报告,笔译内容选自英文原版教材Negotiating the Impossible(《突破不可能之谈判》)第二部分(第七
本文回顾了华中科技大学科协初创、重建与发展历程,介绍了不同时期学校科协履行的职能、开展的特色工作及在"三服务"方面和助推本校"人才培养、科学研究和社会服务"等方面发
基于新一代测序技术(Next Generation Sequencing,NGS)的转录组测序(Whole Transcriptome Sequencing,WTS or RNA-seq)相对于基因芯片技术是一种更为精确和全面的基因表达检
上海作为首批“司法改革”试点城市,从人员分类管理、审判权力运行、司法人员、财务管理等多方面入手,探索出“员额制”、“终身负责制”、“人财物统一管理”等多项新制度。
随着国家新基建政策的提出,人工智能、5G等新科技成为国家将来发展的重点,而作为5G和人工智能相结合的智能车领域的发展也同样备受期待。在智能车领域,环境感知一直是研究的