论文部分内容阅读
目的发热伴血小板减少综合征(severe fever with thrombocytopenia syndrome,SFTS)是由感染发热伴血小板减少综合征病毒(severe fever with thrombocytopenia syndrome virus,SFTSV)引起的传染性疾病。传染性高、病死率高以及分布广泛等原因使SFTS成为严重的公共卫生问题。本研究旨在探究SFTS病人疾病严重程度的关联因素,并利用有意义的因素建立机器学习模型,为临床医生早期识别SFTS重症病人提供线索。方法选择河南省信阳市中国人民解放军联勤保障部队第九九〇医院(原中国人民解放军第一五四中心医院)作为研究现场,收集2019-2020年SFTS病人的临床资料并收集病人血清样本。根据病人病情将病例分为轻症、重症及危重症三个等级。比较三组间实验室检测指标的差异,选取有统计学意义的变量与病人疾病严重程度和血清SFTSV载量进行相关性分析,找到与病人病情及病毒载量有关联的因素。将与疾病严重程度有关联的因素纳入模型,使用机器学习方法中的决策树模型和Logistic回归模型构建早期识别模型。用交叉检验对训练的模型进行检验并得到最佳参数的模型。用受试者工作特征曲线下面积(AUC)、准者度(accuracy)、约登指数(Youden’s index)等指标对模型的预测性能进行评价。结果与病人疾病严重程度相关联的因素有年龄(r=0.478,p<0.05)、SFTSV载量(r=0.532,p<0.01)、PLT(r=-0.387,p<0.05)、WBC(r=-0.372,p<0.01)、AST(r=0.439,p<0.01)、ALT(r=0.307,p<0.05)、LDH(r=0.476,p<0.05)和CK(r=0.408,p<0.01)。其中PLT、WBC与严重程度呈负相关,其余变量均与严重程度呈正相关。与病人SFTSV载量相关联的因素有PLT(r=-0.347,p<0.05)、WBC(r=-0.307,p<0.05)、LDH(r=0.353,p<0.01)、AST(r=0.348,p<0.01)、ALT(r=0.331,p<0.01)、CK(r=0.329,p<0.05)、年龄(r=0.273,p<0.05)及淋巴结肿大面积(r=0.346,p<0.05)。使用受试者工作特征曲线(ROC)对病人严重程度进行初步预测发现,AST具有最高的预测性能,AUC和约登指数分别是0.782,0.534;其次是LDH,AUC和约登指数分别是0.763,0.485;年龄的预测性能最差,AUC和约登指数分别是0.586,0.183。使用CART算法分别基于患者实验室参数和临床特征信息构建决策树模型。通过比较发现,基于SFTS患者实验室参数构建的决策树的灵敏度为92.7%,特异度为70.0%,准确度为83.1%,约登指数为0.63,AUC为0.88;基于SFTS患者人口学和临床特征构建的决策树的灵敏度为82.9%,特异度73.3%,准确度为78.9%,约登指数为0.56,AUC为0.83。表明基于实验室参数的决策树的分类能力更加有效。构建Logistic回归模型,当准确度最大时,模型的灵敏度为66.67%,特异度为79.54%,准确度为76.09%,约登指数为0.46,AUC为0.84;当AUC最大时,模型的灵敏度为33.33%,特异度为99.17%,准确度为68.06%,约登指数为0.32,AUC为0.89。当模型的准确度达到最大时模型的预测性能达到最优。结论1.年龄、SFTSV载量、PLT、WBC、AST、ALT、LDH和CK与SFTS病人病情严重程度有关联,并且这些因素可以作为预测因子对病人进行分类。其中AST、LDH的预测性能最好。2.在决策树模型和Logistic回归模型两类机器学习算法中,决策树模型的分类能力优于Logistic回归模型,并且有结构简单、直观易懂等优点。3.随着模型复杂程度的增加,Logistic回归模型存在过拟合的风险,在临床应用的过程中应与决策树模型联合使用,综合分析。