论文部分内容阅读
哺乳动物基因组上, DNA甲基化在基因转录、细胞分化、衰老和肿瘤的发生中发挥着重要作用。新一代测序技术和重亚硫酸盐转换法结合形成的重亚硫酸盐测序技术(BS-seq)是目前可精确检测胞嘧啶甲基化的“金标准”方法,该技术打开了在基因组水平上系统研究DNA甲基化模式的大门。然而从数以千万个CpG位点构成的 DNA甲基化谱中识别出具有显著生物学功能的区域对于实验科学家是难以实现的,高通量数据的处理和分析已成为生物数学家和生物信息学家关注的热点问题。本研究通过开发新算法从高通量的BS-seq数据中识别和分析基因组区域的甲基化模式,结合人类基因组注释信息和蛋白质互作信息,构建数学模型研究在细胞分化及癌症的发生过程中DNA甲基化模式的动态改变及识别相关生物学标记。主要结果如下: 1)本研究开发一个处理和分析高通量BS-seq数据的新方法CpG_MPs,它包括以下四个主要功能。I)开发数据标准化算法,把高通量的BS-seq数据转化成标准化的CpG甲基化水平数据;II)基于单碱基通量的DNA甲基化标准谱,开发新的搜索算法(热点扩增法)来精确地识别基因组范围内(非)甲基化区域,它突破了传统窗口移动法依赖窗口大小和步长等缺点,可以精确识别不同甲基化模式区域的边界。III)基于组合算法和原始信息熵,开发定性识别和定量评估相结合的算法来识别和分析成对或多样本间保守或差异的甲基化区域,此算法与基于窗口移动的Fisher精确检验法相比,可以识别大量新的、短的差异甲基化区域。IV)提供了一个功能模块用于基因组区域的序列特征挖掘和可视化。CpG_MPs应用于人类胚胎干细胞分化过程中五种细胞系的DNA甲基化测序数据,发现它可精确识别每种细胞系的基因组区域的DNA甲基化模式及细胞系间保守和差异的DNA甲基化区域。CpG_MPs提供了一个系统的软件,从BS-seq测序数据中精确地、高效地识别和分析基因组范围内DNA甲基化模式。 2)人类重复序列占人类基因组DNA序列的一半以上,重复元件的DNA甲基化模式在细胞分化过程中发挥着重要的作用。本研究基于CpG_MPs处理的人类胚胎干细胞和胎儿成纤维细胞的DNA甲基化谱,通过比较基因组学方法对九种重复类型的甲基化谱进行了系统的研究。在两个细胞系间,发现DNA甲基化动态改变的潜能在重复类型间、基因组不同区域间都有显著不同,且具有显著的序列偏好性。从胚胎干细胞到成体细胞的转变过程,大约25%的重复元件的甲基化模式发生重编程,差异甲基化重复元件的靶基因与基因沉默显著相关,重新甲基化的靶基因主要富集在与细胞分化和发育相关的生物学功能上。 3)癌症是严重影响人类健康的复杂疾病,癌基因的识别和分析对癌症早期诊断和治疗都有着重要的意义。本研究整合了人类基因组范围内的蛋白质互作数据和四种癌症细胞上高通量DNA甲基化数据,重构了人类蛋白质加权互作网络(WHPN)。从网络WHPN中通过种子基因进行网络优化,挖掘出癌症显著相关的子网络(CASN)。网络拓扑性质的分析表明子网络CASN比WHPN有更显著的连通性、模块性。通过临界权重决策函数对子网CASN中基因进行优化,筛选出154个甲基化异常的癌症候选基因。功能富集分析发现它们富集在与调控细胞凋亡及程序性死亡等生物学过程,及与癌症相关的重要生物学通路上。癌症基因表达谱的差异表达分析发现,五分之四的差异表达的基因都在候选基因集中,表明癌症细胞上甲基化异常和表达改变密切相关。通过文献证实发现本研究识别的部分候选基因是癌症的诊断、预后、治疗和药物靶向的重要标记物。