论文部分内容阅读
在癌症研究和医学领域,生物标志物能够在早期对癌症病人的病情进行诊断,及时提供治疗方法,并且还可以对癌症的病情进行预测,对于癌症的治疗具有极高的指导价值。许多研究已经报道基因可作为候选的生物标志物,被应用于疾病或者癌症的诊断、预后和疗效等方面。随着高通测序技术的发展,癌症生物标志物的研究也开始从单一组学数据到多组学数据发展,但是多组学数据的整合还停留在简单整合阶段,不能发现多组学数据的内在联系。我们整合基因表达数据和DNA甲基化数据进行癌症生物标志物的研究与分析。本论文的研究内容如下:1、传统的特征选择方法在高维小样本数据中往往考虑特征选择结果的高分类性能,而忽略了特征选择结果的稳定性。对此,本文提出在对基因表达数据进行特征选择的时候,保留研究者公认的与癌症相关的重要基因,得到一个稳定性高的基因特征组合的方法。2、由于450K甲基化芯片仅覆盖全部甲基化位点的2%,采用简单融合的方式可能导致结果有偏。本文首次提出使用扩展后的450K甲基化芯片数据与基因表达数据进行融合的方法,从多个层面分析癌症生物标志物,并且尽可能的利用现有的DNA甲基化数据,融合多组学数据的时候保留更多的信息,得到稳定可靠的具有推广价值的潜在癌症生物标志物。本文的方法比传统的方法分类精确度和可靠性更高。本文分析了多种癌症特定的潜在癌症生物标志物和多种癌症共有的潜在癌症生物标志物,为医学研究和临床治疗提供指导和帮助。3、构建基于模糊规则的分类器模型来验证本文选择的潜在癌症生物标志物对于正常和癌症样本的分类效果,通过交叉验证对比本文的方法和传统的基因表达数据和DNA甲基化数据的简单的融合方法,发现本文的方法要优于传统方法,并且本文的方法对独立样本的预测结果也优于传统的方法,最后基于找到的潜在癌症生物标志物得到了鲁棒性更高、易于理解的分类规则。