论文部分内容阅读
背景白癜风人群罹患糖尿病的风险高于非白癜风人群。因此,有必要探索白癜风人群发生糖尿病的危险因素,从而筛选高危患者,以实现疾病的一级预防和二级预防。目的基于白癜风人群,分析糖尿病发生的危险因素,基于危险因素开发、验证及应用白癜风共病糖尿病风险预测模型。方法5116例白癜风患者来源于空军军医大学西京医院2010年1月-2021年9月的病历数据库。根据是否患糖尿病划分共病组(白癜风共病糖尿病)及对照组(白癜风未共病糖尿病)。共病组和对照组按照1:4进行倾向性得分匹配,匹配因素为性别、年龄。将匹配成功的对子进行单因素和多因素logistic回归分析。将筛选得到的因素进行交互作用分析。待分析的因素包括基本因素:年龄、性别、籍贯、民族、吸烟史、饮酒史、糖尿病家族史、白癜风家族史、代谢性合并症、自身免疫性合并症,以及白癜风特征相关因素:白癜风发病年龄、白癜风分型、白癜风严重程度、晕痣、Koebner现象、白毛和黏膜受累。根据筛选和确定的危险因素构建、验证、评价和可视化白癜风共病糖尿病风险预测模型。通过纳入基本因素以及纳入基本因素+白癜风特征相关因素分别构建并比较2个logistic回归模型,并通过机器学习模型(XGB oost、随机森林、神经网络和LightGBM)同逻辑回归模型进行比较[受试者工作特征曲线(receiver operator characteristic curve,ROC)、Brier 分数及决策曲线分析(decision curve analysis,DCA)],以确定最佳预测模型。采用ROC下面积(area underthe curve,AUC)评价模型区分度;Hosmer-Lemeshow(H-L)拟合优度检验评价模型的校准度。使用十折交叉验证进行内部验证(区分度评价)。使用列线图与网页计算器进行模型的可视化。选择我院2020.07-2021.03门诊就诊的272位白癜风患者,采集患者信息,使用构建的预测模型对白癜风患者进行预测评分,以模型最佳界值的cut-off值为界划分为阳性组(预测值>cut-off值)和阴性组(预测值≤cut-off值)。检测272位白癜风患者的空腹血糖(fasting blood glucose,FBG)和糖化血红蛋白(glycosylated hemoglobin,HbA1c)。根据血糖检测值划分糖尿病组(FBG≥7.0mmol/L或HbAlc≥6.5%)和非糖尿病组(FBG<7.0mmol/L且HbAlc<6.5%),以血糖检测结果为金标准,对预测模型的判断结果进行诊断试验。采用准确性评价(敏感度、特异度、阳性预测值、阴性预测值、阳性似然比和阴性似然比)及一致性评价(Kappa分析)对模型的预测结果进行评价。数值型资料经正态性检验后,使用均数±标准差(x±S)表示。分类资料采用频数(百分比)表示。统计学分析采用SPSS 26.0(SPSS Inc.Chicago,IL,USA)进行分析。模型验证、模型评价、机器学习及DCA通过极智分析平台(SuLing Technology Ltd,China,https://www.xsmartanalysis.com/)进行。所有统计分析均为双侧检验,检验水准α=0.05。结果基本情况。最终纳入535例患者,其中共病组107例,对照组428例。共病组中位年龄49.0岁,男性64人(59.8%),女性43人(40.2%);对照组中位年龄49.0岁,男性256人(59.8%),女性172人(40.2%),年龄、性别在两组间差异无统计学意义(p>0.05)。危险因素的筛选与确定。多因素logistic回归分析采用逐步向前法最大似然估计(α 入=0.15和α出=0.20),结果显示糖尿病家族史(OR=21.28,95%CI:9.35~48.44,p<0.001)、代谢性合并症(OR=8.07,95%CI:4.12~15.84,p<0.001)、自身免疫性合并症(OR=7.05,95%CI:3.39~14.64,p<0.001)、吸烟(OR=2.31,95%CI:1.23~4.35,p=0.009)和白癜风严重程度(OR=1.51,95%CI:1.15~1.97,p=0.003)会对白癜风共病糖尿病产生显著的正向影响关系,而白癜风发病年龄(OR=0.97,95%CI:0.96~0.99,p=0.001)会对白癜风共病糖尿病产生显著的负向影响关系。危险因素的交互作用分析。相加交互作用分析显示,白癜风严重程度与糖尿病家族史[相对超额危险度(relative excess risk due to interaction,RERI)=132.51(95%CI:5.51~1100.20),归因比(attributable proportion,AP)=0.91(95%CI:0.17~0.95),协同指数(synergy index,S)=11.53(95%CI:1.32~100.59)]、代谢性合并症[(RERI=23.76(95%CI:1.23~128.74),AP=0.70(95%CI:0.38~1.03),S=3.65(95%CI:1.15~11.54)]及吸烟史[RERI=6.54(95%CI:0.67~19.83),AP=0.64(95%CI:0.04~0.80),S=3.48(95%CI:1.17~10.36)]呈正相加交互作用。预测模型的构建。构建2个模型:基本模型纳入了糖尿病家族史、代谢性合并症、自身免疫性合并症、吸烟史4个因素(AUC=0.824),白癜风指标模型在基本模型的基础上纳入了白癜风发病年龄及白癜风严重程度2个因素(AUC=0.862)。纳入白癜风特征相关因素可以提高模型的诊断能力。机器学习模型比较结果显示,训练集表现最佳者为随机森林(AUC=0.991),测试集表现最佳者为逻辑回归(AUC=0.855),二者不吻合,随机森林极可能存在过拟合现象,逻辑回归可能稳定性相对较好。校准曲线Brier分数显示,逻辑回归(0.079)预测校准度表现最佳。决策曲线分析显示,与XGBoost、随机森林、lightGBM、神经网络四种机器学习算法模型相比,使用逻辑回归模型可能为患者带来临床获益最大。最终模型采用二元logistic回归,模型公式为:ln(p/1-p)=-2.371-0.029×白癜风发病年龄+3.058×糖尿病家族史+2.089×代谢性合并症+1.952×自身免疫性合并症+0.839×吸烟+0.409×白癜风严重(其中p代表预测为共病的概率,1-p代表预测为单病的概率)。模型的ROC曲线下面积AUC=0.862(95%CI:0.822~0.903),校准曲线 H-L 检验统计量χ2=9.779,p=0.281。模型的验证及可视化。十折交叉验证结果显示训练集AUC=0.848(95%CI:0.721~0.971),验证集 AUC=0.847(95%CI:0.721~0.971)。成功构建了预测模型的列线图及网页计算器。预测模型的临床应用。模型的cut-off值为0.190。诊断试验准确性评价结果显示,灵敏度为 0.792(95%CI:0.655~0.887),特异度为 0.744(95%CI:0.680~0.800),阳性预测值为0.429(95%CI:0.330~0.532),阴性预测值为0.937(95%CI:0.887~0.966),阳性似然比为 3.10(95%CI:2.38~4.04),阴性似然比 0.28(95%CI:0.16~0.47);一致性评价结果显示,Kappa 值=0.406(p<0.001)。结论1.糖尿病家族史、代谢性合并症、自身免疫性合并症、吸烟史、白癜风发病年龄早和白癜风严重程度是白癜风患者共病糖尿病的危险因素。2.白癜风严重程度同糖尿病家族史、代谢性合并症、吸烟史分别存在相加交互作用。3.纳入白癜风特征相关因素可以提高模型的诊断能力。4.与机器学习模型进行比较,逻辑回归模型在区分度、校准度、DCA方面综合表现最佳。5.基于糖尿病家族史、代谢性合并症、自身免疫性合并症、吸烟史、白癜风发病年龄早和白癜风严重程度构建的二元logistic回归模型为最佳模型,且模型具有较好的区分度和校准度。6.十折交叉验证显示模型的区分度较好。7.预测模型的可视化工具包括列线图和网页计算器,列线图直观,但不便于计算;网页计算器界面友好,操作简便。8.在临床上使用预测模型能够较好的筛查可能发生糖尿病的白癜风高危人群。