论文部分内容阅读
[目的]基于SEER数据库,构建胃癌5年生存预测模型,提升模型的判别性能,特别是对生存患者的判别能力,并分析胃癌5年生存影响因素,为胃癌预后评价提供支持。[方法]基于集成学习算法,借鉴EasyEnsemble思想,通过数据层及模型层结合方式处理数据不平衡,基于Bagging方式集成多个GradientBoosting分类器,据此构建基于不平衡胃癌生存数据的预测模型,并基于SHAP值对胃癌5年生存影响因素进行解释分析。[结果] 本文构建的胃癌5年生存预测模型准确率达80.8%,AUC为0.883,对小类类别的生存患者预测准确率为83.5%,与其他模型相比具有更好的胃癌患者5年生存状况预测性能。此外,计算得出阳性淋巴结数量、肿瘤分期分级以及年龄具有较高的SHAP值。[局限] SEER数据库统计的相关预后因素有限,一定程度限制了模型的性能,影响预测结果。[结论]本文构建的胃癌5年生存预测模型具有较好的性能,对小类类别的生存患者也具有很好的判别能力。归纳得出阳性淋巴结数量、肿瘤分期分级以及年龄对胃癌患者5年生存概率具有重要影响,符合临床经验。