基于基因数据的乳腺癌预后分析

来源 :吉林大学 | 被引量 : 0次 | 上传用户:fht5403
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
乳腺癌已成为女性发病率最高的恶性肿瘤,并且乳腺癌发病率呈现逐年升高的趋势,如果能对乳腺癌患者进行精准的预后预测,从临床指导角度讲这具有重要意义。而生存期预测作为预后预测的一个重要组成部分,提高生存期预测能力,一方面能够保障患者的身心健康,另一方面能够对临床工作者的治疗决策提供帮助。近年来,随着生物信息领域的技术发展,以及癌症数据的完善,以往的主观经验法以及传统的统计分析方法无法充分提取这些数据的信息。一方面,癌症数据具有不完全性,包括部分样本记录缺失、测量仪器测试数据丢失等;另一方面,癌症数据具有异质性,将多个数据集简单地相加,往往会造成数据冗余,并且从生物角度难以做合理解释。为了有效整合乳腺癌数据,以便于对乳腺癌患者提供更加精准的生存期预测能力,本文提出一种基于xgboost模型的数据融合方法。本文主要基于以下几个方面对该模型在乳腺癌数据集的适用性进行考察:(1)在处理缺失值方面,xgboost模型能够在不对缺失值进行填充的情况下,对样本进行训练,不但能够保留样本原有的信息,并且在不断迭代过程中,能够对缺失值的划分进行修正,使得最后对缺失值的判断更加接近真实值。所以,本文在处理缺失值样本时,并不删除样本,而是将样本进行保留,这大大增加了训练集的样本量;(2)在预测性能方面,本文先从xgboost模型分别在单模态数据集以及多个模态数据集融合处理的结果进行对比分析,结果表明该模型融合处理多个模态数据集得到的结果要比单个模态数据集得到的结果更加有效;然后,本文将基于xgboost模型的融合算法与基于DNN模型的融合算法进行对比分析,结果表明,基于xgboost模型的融合算法不仅在多模数据集上的效果要优于其它模型,并且在单模数据集上,该模型依旧具有良好的鲁棒性;(3)在生物意义挖掘方面,传统的基于机器学习算法模型旨在训练得到生存期预测性能良好的模型,而忽视了挖掘数据中隐藏的生物意义。从基因数据集中,挖掘出生存期相关基因标志物,对于医疗工作者进行相关的药物研究以及治疗决策具有重要意义。本文利用xgboost模型的特征筛选性能,共标记出141条基因,并从GO富集分析、KEGG通路分析以及编码蛋白相互作用网络分析对标记基因进行功能分析,结果表明,这些基因与细胞分裂、细胞凋亡、细胞增殖、癌症通路等生物过程密切有关。综上所述,本文为证明基于xgboost模型的融合算法在乳腺癌生存期预测方面的适用性,从大量乳腺癌患者的临床数据和基因数据出发,利用传统统计分析方法筛选出乳腺癌相关基因和临床特征,建立了一个基于xgboost模型的融合算法进行乳腺癌生存期预测。为说明该模型的有效性,本文将该模型分用于单模数据集与多模数据集,并将DNN模型与该模型进行对比分析。最后,本文利用该模型筛选出141条基因标志物,进行生物功能分析,对进一步研究乳腺癌相关药物以及临床治疗决策具有指导意义。
其他文献
目的探讨有机磷中毒呼吸衰竭的危险因素及早期监测血降钙素原(PCT)水平的意义。方法回顾性分析2015年7月-2017年7月于我院就诊的50例有机磷中毒患者资料,按是否合并呼吸衰竭
随着辽东湾浅海油气的开发,该海域海底管道的铺设增多。该区域受潮汐、河流等因素影响,海底管道可能出现裸露与悬跨现象,需要人为定期检测与维护。根据辽东湾海南8管道的检测
文章在分析网络安全性、网络抗毁性基本含义的基础上,结合军事通信网络在未来军事斗争中的任务需求和面临的主要打击样式给出了军事通信网络抗毁性的定义,并以此建立起相应的
2012年党的十八大以来,国务院办公厅,中国教育部下发关于人们心理及心理健康的公报共有96篇之多,就在2020年3月18日,国务院为维护公众心理健康,促进社会和谐稳定,进一步加强重点人群心理疏导和心理干预,应对新型冠状病毒肺炎疫情联防联控机制印发《新冠肺炎疫情心理疏导工作方案》。在2019年的7月15日,国务院印发《国务院关于实施健康中国行动的意见》。《意见》明确指出对中小学健康实施促进行动,由于
研究在分析"心理测量学"课程教学现状的基础上,结合应用型本科院校培养具备专业理论基础与实践技能为核心的目标,从教学内容、教学方法与手段、教学评价等三方面构建了"心理
<正> 一社会概况与文学概况帝国主义为了向中国倾销商品(尤其恶毒的是倾销鸦片),用大炮轰开了中国的大门。鸦片战争以清皇朝的失败而告终。清政府不得不与英帝国签订了丧权辱国的条约。在“英国大炮消灭了皇帝的权力,迫今‘天朝’与外洋接触”以后,中国闭关的封建社会,转变为半殖民地半封建社会。
在相同地质条件下,采用人工降雨模拟试验和机械开挖模拟原位试验,研究滑坡触发因素及其对滑坡的影响。研究结果表明:堆积层边坡在降雨入渗影响下多为浅层松弛型破坏,降雨入渗
目的探讨锥形束CT(CBCT)评估Twisted File(TF)、Mtwo及ProTaper镍钛器械在老年人磨牙弯曲根管预备中的临床效果。方法选择需做根管治疗的牙髓炎或(和)根尖周炎患者124例(124颗磨牙),采
近年来,国内中大型医院飞速发展,各种先进医疗设备的应用,使得能源消耗大幅增长,能源成本已成为医院发过程展中不可忽视的一部分。由于医院的能源组成较为复杂,能源消耗形式多样,难以通过一般的方式对医院能源分析处理,急需新的技术手段,针对医院的能源分析及处理方式。有针对性的管理医院能源,掌握医院建筑能耗情况,合理控制能源消耗,为医院正常教学、医疗、科研的能源需求和实现有效节能,不仅仅是针对医院而言,更是国