论文部分内容阅读
随着肺癌患者生存率的显著提升,第二次肺癌的发生比例也与日俱增。目前临床上常用美国癌症联合委员会的TNM分期来帮助医生评估患者的生存时间,主要根据肿瘤的体积、侵袭、淋巴结转移和远程转移的状态进行判断。考虑到部分二次原发肺癌患者肺部已经有相关手术史和药物治疗史,其手术方式和治疗药物的选择具有较大的局限性,导致仅仅基于患者第二次肺癌的肿瘤TNM分期无法帮助医生准确评估患者存活时间。因此,针对二次原发肺癌患者,医生急需一个能帮助其准确判断患者预后的辅助工具。随着肿瘤临床大数据的积累,2019年开始,关注多原发肿瘤患者生存的研究逐渐出现。2021年Hong发表的二次原发肺癌5年生存预测模型AUC达到0.644,2022年Zhu构建的二次原发肺癌预测模型,预测1年和3年生存,其AUC分别为0.76和0.78,这两项工作均使用半参数Cox的方法进行建模,模型总体预测效能一般,难以满足临床应用的需求。针对二次原发肺癌的半参数预后模型预测效能一般的问题,本课题主要研究半参数预后模型和非参数预后模型以及模型集成等方法在二次原发肺癌患者预后方面的应用,预测二次原发肺癌患者1年、3年和5年生存状态,而后通过对各模型的评估和比较获得最优模型。本文主要工作内容如下:(1)从SEER数据库获取得两次肺癌患者数据后,本研究对二次原发肺癌患者样本进行筛选和变量转换,通过比较ACCP指南标准和经典的Martini Melamed标准,定义了一个更加严格的二次原发肺癌筛选条件,减少假阳性的可能,提高样本质量。另外考虑到临床实用性,我们将第六和第七版的AJCC分期转换到当前正在使用的第八版。该转换过程不仅参考分期指南的差异,还与上海肺科医院的胸外科专家进行多次线上讨论以确保转化后分期的可靠性。(2)在二次原发肺癌患者预后模型特征构建上,本研究主要关注在两次肺癌比较过程中定义出的特定临床特征,比如两次肺癌的诊断间隔时间和两次肺癌手术的同异侧。通过倾向性评分匹配和限制性立方样条深入分析该组特征对SPLC患者预后影响及潜在的临床意义,为其纳入第四章SPLC预后模型构建提供理论依据。在特征构建完成后,本研究应用了单因素和多因素Cox分析、Lasso回归法和逐步回归法,进行模型最优特征子集筛选。(3)在模型应用上,本研究不仅使用了半参数方法、非参数方法(决策树、朴素贝叶斯、支持向量机和神经网络)和模型集成方法(随机森林、XGBoost)构建预后模型,还使用了堆叠法对模型结果进行调优。训练完模型后,使用精确度、准确度、召回率、F1得分、ROC曲线、和ROC曲线下面积(AUC值)等多个经典分类指标对模型预测效果进行评价和比较,最终本研究发现XGBoost模型在5年期生存预测的AUC最优,可以达到0.87。综上所述,经过严格的实验设计和模型评估,本研究发现在二次原发肺癌患者预后应用研究中,非参数模型预测效果优于半参数模型,模型集成方法训练的模型优于常规的非集成模型模型。我们获得的最优模型在5年期生存预测的AUC可以达到0.87,相比于已报道的二次原发肺癌模型,我们创新性地引入了机器学习和集成学习等最新的方法,构建了多种模型进行评价,最终得到的模型比起之前报道的模型在性能上也有极大的提升。