女性乳腺癌患者存活时间问题的降维及预测算法研究与开发

来源 :吉林大学 | 被引量 : 0次 | 上传用户:zhaolong0804
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
乳腺癌是发生在乳腺上皮组织的一种恶性肿瘤,是危害女性健康的一种疾病,乳腺并不是维持生命体征的一种必不可少的组织器官,原位乳腺癌并不直接危害生命,但是一旦癌细胞丧失一般细胞特性,就会发生扩散,当癌细胞扩散到全身,严重的可能会危及生命。DNA甲基化是基因修饰的一种方式,在基因组Cp G上结合一个甲基基团,从而影响多个生物功能模块,包括DNA与蛋白质的相互作用方式、DNA的稳定性、DNA构象、染色质结构的改变、以及基因的表达。甲基化测序方法按照原理可以分为三大类,重亚硫酸盐测序,基于限制性内切酶的测序,和靶向富集甲基化位点测序。随着高通量测序技术的发展,甲基化数据的获得变得更为容易,在现代医学中,利用DNA甲基化数据对乳腺癌进行诊断成为一种很有效的方法。但DNA甲基化数据具有很高的数据维度,并且由于基因检测的成本过高,导致样本数量相对不多,也就是所谓的“大p小n”的问题出现,由于数据维度过高,如果直接用模型对原数据进行预测,一方面很大可能会导致过拟合现象的出现。即使在训练集中能够得到相对不错的效果,但是测试集的效果很差,导致模型的泛化能力不强。另一方面,要得到所有的DNA甲基化位点的数据,需要把所有基因都测一遍,导致成本过高。所以本文着重利用特征选择算法的在DNA甲基化数据上的应用,一方面可以降低过拟合风险,另一方面也能够降低检测成本,从而达到对患者存活时间的预测的目的。本文是特征提取算法的研究,先利用T检验,方差,皮尔逊相关系数等过滤法进行特征选择,其次利用RFE等包装法特征选择算法。最后我们利用Lasso,ridge regression等嵌入法特征选择算法。除此之外,本文提出了一个新颖的特征选择算法,首先通过预测该患者是否会在五年内死亡,是一个二分类的问题,然后将二分类我们所预测的结果判断五年会死亡的患者做回归预测,预测具体存活时间。该算法是特征选择算法,我们需要选择出一些影响患者存活时间的甲基化位点,通过该位点对患者存活时间进行预测。该算法可以选择有效的预测患者存活时间的DNA甲基化位点,通过选择出来的位点信息,从模型的角度我们可以利用模型对患者存活时间进行预测,从生物信息的角度,我们也可以利用生物的方法对我们所选择出来的DNA甲基化位点做生物功能分析,以分析出影响患者存活时间的因素。
其他文献
基于有限元软件ABAQUS,通过选择和开发准确的材料本构关系、选择合适的单元类型、设定合适的阻尼及自动导入模型信息,建立了用于分析光谷国际网球中心15 000座主场馆在罕遇地
<正>我国影子银行、地方债务、产能过剩、房地产大幅回调四大风险正在同时发生,中国爆发系统性金融风险的可能性非常高。中国必须改变以往对宏观经济的态度,刺激政策并不会带
随着我国高职高专教育的不断发展,青年教师已经成为了高职院校师资中的生力军和中流砥柱。青年教师教学能力的水平将影响高职院校的教学质量、学生的职业能力、甚至是高职院
华南广泛出露的花岗岩类可划分为幔源、同熔和改造型三种成因类型,其黑云母化学成分亦有明显区别。同熔型花岗岩含镁质黑云母或富镁的铁质黑云母,其八面体层Mg占位率高于36%;
2015年2月4日施行的最高人民法院关于适用《中华人民共和国民事诉讼法》的解释在涉外民事诉讼编新增加了关于不方便法院原则的条文,旨在为司法裁判提供规范依据。我国不方便
现阶段,学校的思想政治教育已经越来越受到普及和重视,但是在其发展的过程当中仍然存在一个重大问题,那就是缺少人文关怀。当今社会不断发展,教育体制改革也得到了进一步的深
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
山区农业受地域限制,经济农作物靠山吃山,因地制宜,种植业受限,养殖业正在蓬勃发展,茶产业正在形成拳头,另一种适应山区特色的食用菌产业正在悄然发展,并具有很强的发展趋势
21世纪"海上丝绸之路"的号角已经吹响;围绕共同建设"丝绸之路经济带"的"一带一路"规划正在制定."海上丝绸之路"建设将面临诸多问题:建什么、怎么建、谁来建、建到什么效果?按