论文部分内容阅读
乳腺癌是发生在乳腺上皮组织的一种恶性肿瘤,是危害女性健康的一种疾病,乳腺并不是维持生命体征的一种必不可少的组织器官,原位乳腺癌并不直接危害生命,但是一旦癌细胞丧失一般细胞特性,就会发生扩散,当癌细胞扩散到全身,严重的可能会危及生命。DNA甲基化是基因修饰的一种方式,在基因组Cp G上结合一个甲基基团,从而影响多个生物功能模块,包括DNA与蛋白质的相互作用方式、DNA的稳定性、DNA构象、染色质结构的改变、以及基因的表达。甲基化测序方法按照原理可以分为三大类,重亚硫酸盐测序,基于限制性内切酶的测序,和靶向富集甲基化位点测序。随着高通量测序技术的发展,甲基化数据的获得变得更为容易,在现代医学中,利用DNA甲基化数据对乳腺癌进行诊断成为一种很有效的方法。但DNA甲基化数据具有很高的数据维度,并且由于基因检测的成本过高,导致样本数量相对不多,也就是所谓的“大p小n”的问题出现,由于数据维度过高,如果直接用模型对原数据进行预测,一方面很大可能会导致过拟合现象的出现。即使在训练集中能够得到相对不错的效果,但是测试集的效果很差,导致模型的泛化能力不强。另一方面,要得到所有的DNA甲基化位点的数据,需要把所有基因都测一遍,导致成本过高。所以本文着重利用特征选择算法的在DNA甲基化数据上的应用,一方面可以降低过拟合风险,另一方面也能够降低检测成本,从而达到对患者存活时间的预测的目的。本文是特征提取算法的研究,先利用T检验,方差,皮尔逊相关系数等过滤法进行特征选择,其次利用RFE等包装法特征选择算法。最后我们利用Lasso,ridge regression等嵌入法特征选择算法。除此之外,本文提出了一个新颖的特征选择算法,首先通过预测该患者是否会在五年内死亡,是一个二分类的问题,然后将二分类我们所预测的结果判断五年会死亡的患者做回归预测,预测具体存活时间。该算法是特征选择算法,我们需要选择出一些影响患者存活时间的甲基化位点,通过该位点对患者存活时间进行预测。该算法可以选择有效的预测患者存活时间的DNA甲基化位点,通过选择出来的位点信息,从模型的角度我们可以利用模型对患者存活时间进行预测,从生物信息的角度,我们也可以利用生物的方法对我们所选择出来的DNA甲基化位点做生物功能分析,以分析出影响患者存活时间的因素。