论文部分内容阅读
DNA甲基化是最重要的表观遗传机制之一,在基因表达调控、胚胎发育、X染色体失活、基因印记以及维持染色质结构等生物学过程中发挥着重要的作用,并且与许多疾病的致病过程相关。近年来的大量研究表明,差异甲基化位点与许多疾病有直接关系,特别是癌症。因此,识别差异甲基化位点是解剖疾病病因中最关键和最根本的问题之一。本文对多种癌症进行分析,找到每种癌症对应的差异甲基化位点,为癌症早期诊断提供依据,为此本文做了如下工作:1)针对现有统计假设检验方法只是选出在统计上有显著差异的位点,选出来的位点并不都具有类别区分特性,本文引入了基于机器学习的特征选择方法(Elastic Net正则化)。该方法有效解决了假设检验方法不能同时发现多个位点对癌症的组合作用。2)针对在优化差异甲基化识别算法过程中发现选择出的差异甲基化位点不稳定问题,本文提出了基于Elastic Net正则化的集成特征选择算法。本文选择了 13种癌症数据来分析算法特征选择稳固性,结果发现在两种特征选择算法模型分类性能接近的情况下本文算法在特征选择稳固性评价指标(杰卡德指数)上优于Elastic Net正则化特征选择算法。3)在与现有统计假设检验方法的对比中,本文采用在独立测试集上测试本文算法选择出的差异甲基化位点与FastDMA、RnBeads两种假设检验方法得到的差异甲基化位点的类别区分性能。结果发现,本文算法在独立测试集上正确率高于FastDMA与RnBeads,由此可知本文算法选出的差异甲基化位点的类别区分性能优于两种假设检验方法。4)针对本文选出的差异甲基化位点是否有实际的生物意义,本文采用了对多种癌症做癌症共性分析。本文将癌症共有差异甲基化位点对应到基因上,得到38个共有差异基因,查阅文献发现有23个共有差异基因跟癌症有密切关系。本文进行pathway分析时,发现共有代谢通路有11个,其中9个和癌症有直接关系。这说明本文找到的差异甲基化位点能为生物学家提供有效参考。