论文部分内容阅读
目的:弥漫性大B细胞淋巴瘤(DLBCL)是最常见的非霍奇金淋巴瘤,目前主要使用R-CHOP作为标准化疗方案,但仍有30%到50%的患者因耐药复发。患者复发后因缺乏有效的治疗方案生存率较低,能准确预测患者的复发风险并提供有效的巩固化疗方案已成为临床医生亟待解决的重要问题。其中疾病成因错综复杂、数据中的类别不平衡问题均导致现有模型分类性能较弱、适用患者有限等问题,故本研究旨在使用机器学习方法构建准确率较高、适用性较强的DLBCL患者复发风险预测模型,为临床治疗方案制定提供参考。方法:为提升模型准确率,联合9种类别平衡方法、2种机器学习方法、logistic回归方法与4种集成学习方法形成共48种建模方案。为提升模型适用性,首先使用以上方案分别12个存在类别不平衡问题的公共数据库构建分类与概率预测模型,对后者采用Platt scaling进行概率校准;其次评价模型性能并绘制随着数据类别不平衡率变化建模方案性能变化图谱;随后应用图谱为经变量筛选后的DLBCL患者达到完全缓解后的复发数据库挑选5套备选建模方案建模;最后选取其中模型性能评价指标最高者作为患者两年、三年与五年内复发风险分类与概率预测模型。结果:(1)根据模拟研究中对联合集成学习(Adaboost同型集成,随机森林,平均投票和Stacking异型集成等四种方法)、重采样(SMOTE,RACOG,DBSM和FCMSMT等四种方法)和代价敏感等三大类共9种类别平衡方法、C5.0决策树与支持向量机等两种机器学习方法、传统logistic回归方法与4种集成学习方法形成共48种建模方案绘制的图谱,其中使用未平衡数据、使用SMOTE采样数据、使用RACOG采样数据、添加代价敏感矩阵的Stacking集成模型与使用RACOG采样数据构建的随机森林模型等5个方案在所有建模方案性能排序前五。(2)使用logistic、用于变量筛选的随机森林(VSURF)与LASSO等三种变量筛选方法对患者两年、三年及五年内复发数据进行变量筛选后,疾病等级、是否患乙型肝炎(HBV)、Ki-67、是否生发中心来源淋巴瘤(GCB)、上呼吸道感染等5个变量是9个数据库的共同变量,是患者复发的独立危险因素。(3)使用未平衡数据构建的Stacking异型集成模型在DLBCL患者两年内(分类模型中准确率=0.9129,灵敏度=0.9073,F值=0.9132,AUC=0.9129,G-means=0.9129;概率模型中AUC=0.9710,RMSE=0.2798,MXE=0.2796,Cal mean=0.0112,BS1=0.0817,BS0=0.0756,BSall=0.0783)、三年内(分类模型中准确率=0.9132,灵敏度=0.8684,F值=0.9086,AUC=0.9132,G-means=0.9115;概率模型中AUC=0.9578,RMSE=0.2651,MXE=0.2512,Cal mean=0.0227,BS1=0.0992,BS0=0.0418,BSall=0.0703)与五年内(分类模型中准确率=0.9134,灵敏度=0.8762,F值=0.9098,AUC=0.9134,G-means=0.9125;概率模型中AUC=0.9597,RMSE=0.2627,MXE=0.2524,Cal mean=0.0234,BS1=0.0951,BS0=0.0413,BSall=0.0690)的复发风险预测模型中均最优。结论:(1)使用VSURF进行变量筛选后,构建的风险预测模型性能较优。(2)疾病等级、HBV、Ki-67、GCB与上呼吸道感染等5个变量是DLBCL患者的两年、三年与五年内复发模型的共同变量。(3)根据建模方案图谱选择的5种方案中,使用未平衡数据构建的Stacking异型集成模型构建DLBCL患者的两年、三年与五年内复发风险预测模型。