论文部分内容阅读
目的:构建预测模型,以临床信息预判急性上呼吸道感染继发肺炎的风险。方法:以2020年10月至2021年2月天津中医药大学第一附属医院急性上呼吸道感染的门诊患者为起止时间,通过问卷收集患者资料(人口学资料、病史资料、中医临床症状、实验室检查结果、CT检查结果等),将纳入病例按等比例分层抽样分为测试集(建立预测模型)和训练集(验证预测模型)两部分。应用LASSO回归优化筛选变量,分别通过多因素Logistic回归分析、决策树模型2种方法建立预测模型,采用受试者工作特征曲线(ROC)筛选最优预测模型,代入训练集对最优模型进行验证。应用校准曲线和Hosmer-Lemeshow拟合优度检验模型校准度,决策曲线分析(DCA)评估模型临床有效性。以列线图法实现预测模型可视化。结果:1.共纳入1888例患者,其中男性938例,女性950例,年龄18-91岁。训练集1510例(80%)和测试集378例(20%)。在所有患者中,1779例未发生肺炎,109例发生肺炎,其中训练集90例(6%),测试集19例(4.8%)。2.采用LASSO回归分析筛选出7个关键预测变量:年龄(OR:1.228)、病程(OR:1.374)、白粘痰(OR:3.611)、黄脓痰(OR:3.752)、乏力(OR:1.246)、憋气(OR:3.829)、胸痛(OR:8.936)。3.多因素Logistic回归分析结果显示,年龄、病程、白粘痰、黄浓痰、乏力、憋气、胸痛是急性上呼吸道感染患者发生肺炎的重要危险因素(P<0.05),相对于40岁以下患者,年龄40-70岁上感患者继发肺炎的风险增加1.679倍,年龄70岁以上上感患者继发肺炎的风险增加1.873倍;相对于病程3天以内的患者,病程3-6d的上感患者继发肺炎的风险增加1.372倍,病程7-9d的上感患者继发肺炎的风险增加2.471倍,病程10-12d的上感患者继发肺炎的风险增加2.933倍,病程超过12d的上感患者继发肺炎的风险增加3.857倍;出现白粘痰症状的上感患者较无此症状的患者继发肺炎的风险增加4.339;出现黄脓痰症状的上感患者较无此症状的患者继发肺炎的风险增加3.163;出现乏力症状的上感患者较无此症状的患者继发肺炎的风险增加2.682;出现憋气症状的上感患者较无此症状的患者继发肺炎的风险增加4.922;出现胸痛症状的上感患者较无此症状的患者继发肺炎的风险增加8.686,纳入以上7个变量构建预测模型。Logistic回归预测模型公式:P(肺炎)=-12.405+0.080*年龄+0.786病程+2.913*白粘痰+4.270*黄粘痰+4.028*憋气+4.555*胸痛+1.918*乏力。4.决策树模型最终纳入4个变量:胸痛(Importance值为0.406)、病程(Importance值为0.343)、白粘痰(Importance值为0.161)、年龄(Importance值为0.090)。该树形图包含4层,共11个节点,6个终端节点,胸痛、病程、白粘痰、年龄是影响急性上呼吸道感染继发肺炎的风险预测因子,共提取6条分类规则,其中发生肺炎的3条规则如下:(1)病程≤5天,合并胸痛,合并白粘痰,则发生肺炎的置信度为88.89%;(2)病程>5天,合并胸痛,则发生肺炎的置信度为96.97%;(3)病程>5天,无胸痛,年龄>43岁,则发生肺炎的置信度为78.79%。其中未发生肺炎的3条规则如下:(1)病程≤5天,合并胸痛,无白黏痰,则不会发生肺炎的置信度为83.33%;(2)病程≤5天,无胸痛,则不会发生肺炎的置信度为98.13%;(3)病程>5天,无胸痛,年龄≤43岁,则不会发生肺炎的置信度为78.13%。5.两种不同模型的比较结果显示,Logistic回归模型中对继发肺炎影响较大的前3种因素依次为:胸痛、憋气、白粘痰。决策树模型中前3种因素依次为胸痛、病程、白粘痰。Logistic回归模型训练集的ROC曲线下面积AUC值为0.818,95%CI:0.764-0.871;测试集ROC曲线下面积AUC值为0.793,95%CI:0.667-0.918;决策树模型训练集的ROC曲线下面积AUC值为0.604,95%CI:0.539-0.665;测试集ROC曲线下面积AUC值为0.552,95%CI:0.513-0.593。Logistic回归分析预测模型更优,确定为最佳预测模型。6.最优模型的验证结果显示,Logistic回归预测模型训练集的敏感度为81.1%(73/90),特异度为82.6%(1173/1420),PPV为22.8%(73/320),NPV为98.6%(1173/1190);测试集敏感度为73.7%(14/19),特异度为73.5%(264/359),阳性预测值(PPV)为12.8%(14/109),阴性预测值(NPV)为98.1%(264/269);校准曲线显示模型的校正能力较好(P=0.630);训练集和测试集DCA曲线阈值概率大致在10%-80%范围内模型的净效益较好。结论:年龄、病程、白粘痰、黄脓痰、乏力、憋气、胸痛是预测急性上呼吸道感染继发肺炎的独立风险因子,logistic回归预测模型优于决策树预测模型,包含以上7个关键变量的logistic回归预测模型敏感度高,特异性强,校准度好,临床应用有效。Logistic回归预测模型公式:P(肺炎)=-12.405+0.080*年龄+0.786病程+2.913*白粘痰+4.270*黄粘痰+4.028*憋气+4.555*胸痛+1.918*乏力。