论文部分内容阅读
DNA甲基化在调控基因的表达方面具有重要作用,是表观遗传学中的重要课题。实验检测DNA甲基化水平的手段一般包括测序技术与芯片检测技术,测序技术可以获取人类全基因组CpG位点的甲基化水平,但成本高昂,手段复杂;芯片检测技术价格相对低廉,且能够得到全基因组尺度的DNA甲基化水平,是目前检测DNA甲基化水平的主要方法。主流的450K甲基化芯片的不足在于,其仅仅覆盖了人类全基因组CpG位点总数的2%。因此,采用计算方法对450K甲基化芯片数据进行扩展以获取更多CpG位点的甲基化水平成为了一大研究热点。目前的450K甲基化芯片数据扩展方法均属于开发通用化的扩展模型,无法对特定位点的预测效果进行量化评估。为此,本文设计了一种可以精准扩展450K甲基化芯片数据的方法,对单个CpG位点建立扩展模型并开发了在线扩展平台。此外,本文还将该扩展模型应用于环状RNA的甲基化水平研究,分析了环状RNA的甲基化与癌症之间的关联。本文的具体工作如下:1、提出了一种基于位点之间甲基化水平相似性以及DNA序列组成相似性度量的450K甲基化芯片数据精准扩展算法,对单个CpG位点建立扩展模型,并通过WGBS检测数据训练和测试模型以获取模型的参数、误差和预测准确率,最终得到面向单个位点甲基化水平的精准扩展模型,其预测结果和WGBS检测结果的相关系数达到了0.93,且各项性能指标优良。与现有甲基化水平扩展模型相比,本模型可以对特定位点的预测效果进行量化评估。2、由于环状RNA覆盖的CpG位点中,仅有少量位点的甲基化水平得以检测,因此现阶段还无法系统性地分析环状RNA中的甲基化模式,本文将DNA甲基化精准扩展模型应用于环状RNA,基于扩展得到的环状RNA甲基化数据系统地分析环状RNA的甲基化概貌,并结合多组学分析方法,识别出了一些与癌症有密切关联的环状RNA,为生物学家从海量数据中挑选实验对象提供了依据。3、设计并开发了基于Django框架的DNA甲基化在线预测平台,平台具有高响应速度、高稳定性和高并发性的特点,且访问方便、使用简单,为国内外的相关科研工作者提供了一个能够在线预测特定CpG位点甲基化水平的科学工具,丰富了DNA甲基化水平的获取手段,节省了甲基化检测实验的开销。