论文部分内容阅读
目的:利用医疗大数据,应用人工智能方法建立2型糖尿病(Type 2 diabetes mellitus,T2DM)患者发生颈动脉粥样硬化(Carotid atherosclerosis,CAS)的简易的风险预测模型。方法:应用医渡云检索方法选取大连市中心医院普病库内2010年10月1日至2020年10月1日期间住院的年龄≥18周岁的T2DM患者进行回顾性队列研究,所有入组患者均符合《中国2型糖尿病防治指南(2020年版)》中的T2DM诊断标准,且均于我院行颈动脉多普勒超声检查。本研究共纳入15538例患者,其中发生CAS的病例数为8272人,未发生CAS的病例数为7266人,分别按照4:1的比例随机抽样分配为训练集及测试集。收集患者基本资料及实验室指标共21项,包括年龄、性别、体重指数(Body mass index,BMI)、腰围(Waist Circumference,WC)、吸烟史、饮酒史、收缩压(Systolic blood pressure,SBP)、舒张压(Diastolic blood pressure,DBP)、丙氨酸氨基转移酶(Alanine aminotransferase,ALT)、天门冬氨酸氨基转移酶(Aspartate aminotransferase,AST)、γ-谷氨酰转肽酶(γ-Glutamyl transpeptidase,γ-GT)、血尿酸(Plasma uric acid,SUA)、总胆固醇(Total Cholesterol,TC)、甘油三酯(Triglyceride,TG)、低密度脂蛋白胆固醇(Low density lipoprotein cholesterol,LDL-C)、高密度脂蛋白胆固醇(High density lipoprotein cholesterol,HDL-C)、游离三碘甲状腺原氨酸(Free triiodothyronine,FT3)、游离四碘甲状腺原氨酸(Free thyroxine,FT4)、促甲状腺素(Thyrotropin,TSH)、糖化血红蛋白(Glycosylated hemoglobin,Hb A1c)、空腹血浆葡萄糖(Fasting Plasma Glucose,FPG)。首先进行数据预处理过程,对所有特征进行min-max归一化缩放到0、1之间,然后使用KNN插补法对缺失值进行插补。随后使用Lasso回归分析法得出对T2DM患者发生CAS的影响因素,输出这些因素的重要性排序,选取重要性排名靠前、临床常用并且在基层医疗单位可以广泛得到的指标建立更为实用的预测模型,分别从AUC值、灵敏度、特异度、精确度等方面评估模型的预测效能。本研究通过对比随机森林、极端梯度提升、支持向量机、K-最近邻算法、逻辑回归、轻量级梯度提升机这六种机器学习算法建立的不同模型,比较各模型预测效能并选择最优模型,同时输出最优模型得出的危险因素重要性排序。采用SPSS26.0软件进行统计学分析。计量资料以x±s表示,比较采用t检验;计数资料以率(%)表示,比较采用χ~2检验。p<0.05表示差异有统计学意义。采用Python 3.7软件的sklearn库建立机器学习模型,采用曲线下面积(Area under the curve,AUC)、灵敏度、特异度、精确度来评价所选模型效能。结果:1.本研究共纳入T2DM患者总人数15538例,其中发生CAS的病例数为8272人,未发生CAS的病例数为7266人,将两组患者按照4:1比例随机分为训练集及测试集,训练集中发生CAS的病例数共6617人,未发生CAS的病例数为5813人;测试集中发生CAS的病例数共1655人,未发生CAS的病例数为1453人。2.通过Lasso回归方法对T2DM患者发生颈动脉粥样硬化进行危险因素筛选,并输出筛选出的危险因素重要性排序(重要性为权重的绝对值)。经上述方法筛选后得出11项危险因素,分别为年龄、SBP、LDL-C、BMI、性别、HDL-C、Hb A1c、WC、SUA、吸烟史、饮酒史。3.本研究选取Lasso回归方法筛选出的十一项风险因素建立风险预测模型,分别使用上述六种机器学习算法建立T2DM患者发生CAS预测模型,比较各模型预测效能。从AUC结果来看,支持向量机模型在预测T2DM患者发生CAS的预测效能最佳,AUC值为0.761(95%CI 0.744-0.779)、准确度为0.711(0.695-0.727)、敏感度为0.743(95%CI 0.722-0.764)、特异度为0.675(95%CI 0.649-0.697)。本研究中,支持向量机模型与逻辑回归模型效果相当,但由于支持向量机模型无法输出模型中各危险因素的重要程度,因此,本研究选择逻辑回归模型输出的危险因素重要性来代替(两个模型效果相近)。危险因素重要性排序由重到轻依次为饮酒史、SUA、吸烟史、HDL-C、WC、BMI、性别、LDL-C、Hb A1c、SBP、年龄。结论:1.根据人工智能算法学习,支持向量机预测模型在预测2型糖尿病患者发生颈动脉粥样硬化时的效能最佳,且该模型与既往研究者所建的模型效能类似,但所需指标少,可及性强,更为便捷、实用,便于基层医疗单位应用。2.LR模型输出的T2DM患者发生CAS的十一项风险因素重要性排序由重到轻依次为饮酒史、SUA、吸烟史、HDL-C、WC、BMI、性别、LDL-C、HbA1c、SBP、年龄。