基于RNA m6A修饰高通数据的共甲基化模式聚类解析模型

来源 :中国矿业大学 | 被引量 : 0次 | 上传用户:zuhai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
m6A是一种在哺乳动物细胞中最普遍存在的甲基化修饰,在m RNA代谢、生理、病理等生命过程中发挥着关键作用。然而由于生命过程的复杂性,目前人们对存在于基因组不同位置的m6A甲基化位点具体功能是什么,各自与哪些生物学过程或哪些疾病相关,又如何参与这些生物学过程以及影响疾病发生、发展等细节尚不清楚。而这些细节有助于从系统层面揭示m6A在不同生命过程中的作用机制和机理,进而为m6A相关的药物研发以及癌症等复杂疾病的治疗提供重要的帮助。生物实验的方法解决上述问题,往往需要花费高昂的经济和时间成本。基于m6A修饰高通测序数据进行共甲基化模式聚类解析的生物计算方法,可以辅助生物实验解决上述问题,并节约经济和时间成本。然而,在此方面却存在缺少可靠数据集和有效挖掘算法等问题。针对上述问题,本文研究分析并构建了位点在不同实验条件下的甲基化修饰数据集,基于此数据集提出了不同聚类算法,从多个层面进行了m6A共甲基化模式挖掘,可为m6A在不同生命过程中调控细节的研究提供一定的帮助。本文的主要研究工作和创新如下:1)构建了69446个位点在32个实验条件下的m6A甲基化修饰数据集。针对当前数据集存在样本数量较少和位点精度不够的问题,本文研究分析了已知的Me RIP-Seq相关实验并搜集了相应的原始测序数据,通过数据质控、序列比对等一系列预处理过程,同时结合基于mi-Clip、m6A-CLIP等单碱基分辨率生物实验确定的位点信息,构建了来自9个独立研究的人类不同细胞系32个样本的Me RIP-Seq数据集。此数据集相比于当前数据集,融合了更多的生物样本,具有更高的位点精度。为了从多个层面进行m6A共甲基化模式挖掘,此数据集又被进一步处理为IP样本、input样本读段数数据和甲基化水平数据。此数据集为后续章节m6A共甲基化模式聚类分析提供了可靠有效的数据支撑。2)提出了基于矩估计的贝塔混合模型聚类算法(Moment-estimating-based Beta Mixture Model,MBMM)。针对传统的贝塔混合模型因采用求偏导法进行参数推断,无法直接在高维度小样本的m6A甲基化水平数据上进行聚类分析问题,本文通过在模型构建过程中引入矩估计的方法进行参数估计,实现了基于贝塔混合模型的m6A共甲基化模式的挖掘。MBMM基于EM算法框架,仿真实验中,该算法在四个数据集上的兰德指数均高于目前其它4种主流算法,表明MBMM算法能准确复现隐藏数据中的共甲基化模式。在真实的数据集上,MBMM发现了7个共甲基化模式。通路特异性分析以及酶底物特异性靶位点分析表明,这些模式分别不同程度的富集到了已知的受m6A显著调控的通路和m6A调控酶的特异性靶位点上。基因本体论富集分析表明,当保留每个模式中最为富集的前10个生物学过程术语时,发现7种模式中没有重复的生物学过程术语,说明7种模式又具有潜在的高度的调控特异性。对比实验结果表明,MBMM在真实数据上的聚类结果相对于其它主流的聚类算法更有生物意义。3)提出了基于贝塔混合分布的双聚类算法(Beta-mixture-distribution-based Biclustering Algorithm,BDBB)。MBMM算法虽然实现了从贝塔混合模型的层面进行m6A共甲基化模式的挖掘,但无法捕捉部分位点在部分条件下表现出的局部共甲基化模式。针对上述问题,本文通过定义双聚类结构并基于吉布斯采样的方法对MBMM算法进行改进,实现了从双聚类算法层面在甲基化水平数据上进行m6A局部共甲基化模式的挖掘。在仿真数据验证实验中,BDBB的技术指标recovery和relevance得分均为0.994,显著优于目前其它5种主流算法,比最好的Plaid算法分别高出0.327和0.28,可以准确复现隐藏在模拟数据中的局部共甲基化模式,表明BDBB聚类算法的有效性。在真实数据聚类实验中,BDBB发现了2个局部共甲基化模式,分别富集到了组蛋白修饰以及胚胎发育等生物学过程。生物意义分析表明,这两个模式均为有效的局部共甲基化模式,并且比MBMM算法的聚类结果更具生物意义。4)提出了基于贝塔二项分布的双聚类算法(Beta-binomial-distribution-based Biclustering Algorithm,BBM)。基于甲基化水平数据进行聚类时,需要把IP样本和input样本转换为位点的甲基化水平数据,此计算过程引入了新的噪声,造成了数据失真,从而降低了聚类结果的可靠性。针对上述问题,本文通过合理假设数据服从贝塔二项混合分布,实现了无需进行甲基化水平数据转换,就可以直接进行m6A局部共甲基化模式的挖掘。BBM采用吉布斯采样的方法进行参数估计,可以直接在IP样本和input样本读段数数据上同时进行双聚类操作。在仿真数据验证实验中,其技术指标recovery和relevance得分分别为0.995和0.996,显著优于目前其它5种主流算法,比最好的Plaid算法分别高出0.619和0.432,可以准确复现隐藏在模拟数据中的局部共甲基化模式,表明BBM聚类算法的有效性。在真实数据聚类实验中,BBM发现了2个有效的局部共甲基化模式,分别富集到RNA翻译,共价染色质修饰等生物学过程,对比实验结果表明,其聚类结果相对于BDBB更具生物意义。5)提出了基于数据筛选策略的贝塔二项分布增强双聚类算法(Enhancing Biclustering Algorithm Based on Beta-binomial Distribution,EBBM)。BBM虽然可以直接在IP样本和input样本读段数数据上进行局部共甲基化模式的挖掘,但其却无法有效去除IP样本读段数小于对应input样本读段数1.5倍的Me RIP-Seq测序数据噪声问题。针对上述问题,本文通过在BBM模型中引入数据筛选策略,提升了BBM算法对于噪声的识别能力。在仿真数据验证实验中,其技术指标recovery和relevance得分分别为0.998和0.997,显著优于BBM算法和目前其它5种主流算法,比最好的BBM算法分别高出0.338和0.337,可以有效识别并去除上述噪声。在真实数据聚类实验中,EBBM发现了两个共甲基化模式,分别富集到磷酸化的负调控,肽基赖氨酸甲基化等生物学过程。对比实验结果表明,EBBM的聚类结果相比较于BBM的聚类结果更具生物学意义。最后,本文对上述4种聚类算法发现的共甲基化模式及其生物意义GOE_score指标、算法适用性等进行了评价分析。本文研究对于m6A在不同生命过程以及癌症等复杂疾病发生、发展过程中的作用机制、机理的研究,揭示生命奥秘及疾病的诊断治疗具有较大助益。本论文有图43幅,表19个,参考文献166篇。
其他文献
新生代以来,由于青藏高原的形成、全球气候变化事件等全球性影响,云南地区发生了翻天覆地的变化。一个多世纪以来,各学科交叉领域的学者一直在针对青藏高原隆升及其带来的众多变化开展相关研究,试图探讨青藏高原隆升对周边区域,甚至是对全球的影响,以及这些变化是如何响应青藏高原隆升的。在过去的研究中,与青藏高原东南缘研究重点和热点地区不同,滇东南地区一直缺乏关于古环境、古植被、古气候的系统性重建研究。作为世界上
学位
学位
学位
辣木Moringa oleifera Lam.是辣木科辣木属植物,多年生常绿乔木,主要分布于热带和亚热带地区。近年来对辣木叶化学成分和生物活性研究成为热点。研究表明,不同产地的辣木叶样品在营养成分、总黄酮和总多酚含量上都有差异,不同产地的辣木叶在次生代谢产物特别是酚性化合物上是否有差异,这种差异是由遗传因素还是由生境因素造成的,这方面的研究未见报道。鉴于此,本研究聚焦于辣木叶的质量,通过对不同产地
应用汽车驾驶模拟器对道路交通“人-车-路-环”系统进行仿真研究已逐渐成为道路交通研究领域一个重要的发展方向,随之带来的对汽车驾驶模拟器有效性的系统评价需求也越来越迫切。在道路交通系统中驾驶人占据主导地位,但目前从人机工效的角度,基于复杂道路交通条件、风险道路交通环境方面综合分析汽车驾驶模拟器有效性的研究还不足。论文以人机工效理论为基础,从驾驶人感知与行为特性出发,以模拟器综合性评价为目标,按照道路
我国“十四五”规划和2035年远景目标纲要指出:“重视新污染物治理”。2021年10月生态环境部印发《新污染物治理行动方案(征求意见稿)》,指出要“强化新污染物的源头管控、过程控制、末端治理。药物类化合物(pharmaceutically active compounds,Ph ACs)是一类较为典型的新污染物,广泛存在于各类环境水体中。因其具有内分泌干扰活性和诱导菌群抗药性而备受关注。环境水体中
全球变暖影响了世界范围内的经济社会发展,国际社会在控制温室效应方面已达成共识并做出了一系列努力。我国也一直是应对全球变暖的重要贡献者和参与者,在提前完成现阶段碳减排目标的基础上,提出了“3060双碳目标”。一方面,通过政策驱动发展方式向低碳转型,提高非化石能源的使用占比,减少温室气体排放;另一方面,通过增加生态碳汇、碳捕集等固碳措施降低大气现有CO2浓度。土壤作为全球最大的陆地碳汇,拥有巨大的生态
高校创业教育对于培养创新创业人才、促进经济社会发展具有重要意义,政府、社会和高校纷纷推出政策和资源支持大学生创业。当前,高校创业教育对于大学生主体性观照不够、与相关学习理论融合不够、聚焦大学生创业学习困境不够等现状,亟需得到具体回应。作为创业教育主体的大学生,其面临的学习迷惘、重复探索、学历崇拜等创业学习问题,亟需得到具体回答。大学生应该怎样更好展开创业学习?只有更好体现大学生创业学习的成才逻辑、
学位