论文部分内容阅读
目的:通过大数据分析技术分析乌鲁木齐成人血糖异常流行状况和血糖异常的危险因素,构建2型糖尿病(Type2 Diabetes Mellitus,T2DM)无创的风险预测模型和T2DM患者新亚型的聚类模型,实现T2DM的快速筛查及精准分类。达到从乌鲁木齐整体人群到T2DM的高危人群,再到T2DM患者的全程疾病管理的目的,为当地政府及医疗机构制定T2DM的防控和治疗提供参考依据。方法:1)以2018年乌鲁木齐全民健康体检的432,823名成人作为研究对象,分性别、年龄、民族和职业等情况了解该人群空腹血糖损害(impaired fasting glucose,IFG)和T2DM的患病率,分析与T2DM和IFG相关的危险因素;2)运用惩罚逻辑回归的LASSO(The Least Absolute Shrinkage and Selectionator operator)算法筛选变量,将变量纳入逻辑回归、决策树、随机森林、AdaBoost和XGBoost等五种有监督的机器学习方法中,建立T2DM的风险预测模型。使用混淆矩阵、准确率、灵敏度、特异度、精确率、召回率和ROC曲线下面积AUC等指标来评估五种模型的分类性能及优缺点;3)对32,030例成人T2DM患者的空腹血糖、高密度脂蛋白(High Density Lipoprotein Cholesterol,HDL-C)、低密度脂蛋白(Low Density Lipoprotein Cholesterol,LDL-C)、肌酐(Creatinine,Cr)、总胆固醇(Total Cholesterol,TC)、甘油三酯(Triglyceride,TG)、腰围、BMI、收缩压和舒张压等10个常规临床变量采用主成分分析(principal componentanalysis,PCA)方法进行数据降维和可视化,采用无监督的机器学习方法K-means建立了 T2DM患者的聚类模型,并通过total inertia和轮廓系数评价聚类模型的效果。结果:1)乌鲁木齐市成人T2DM的粗患病率(标准化率)为10.5%(8.25%),其中男性为10.8%(8.77%),女性为10.3%(7.69%)。IFG的患病率(标准化率)为7.0%(6.34%),其中男性为7.1%(6.51%),女性为7.0%(6.18%)。不同年龄、民族、职业、运动、吸烟、饮酒、饮食习惯、血压、心率、BMI、腰围和生化指标的T2DM和IFG患病率比较差异具有统计学意义;2)多因素logistic回归分析结果显示:年龄、民族(维吾尔族、哈萨克族、其他民族)相对汉族、男性、职业(农林牧渔水利业生产人员、生产运输设备操作人员及有关人员)相对商业服务人员、饮酒、缺乏运动、心率>100(次/分)、SBP、BMI、腰围、AST、HGB、Cr、ALT、TBIL、TG、TC、高血压、脂肪肝、贫血与IFG正相关;年龄、民族(维吾尔族)相对汉族、男性、职业(农林牧渔水利业生产人员、生产运输设备操作人员及有关人员、军人)相对商业服务人员、单次饮酒量(>25g)、心率过速、BMI、腰围、HGB、Cr、ALT、TG、BUN、冠心病、高血压、胆囊炎、胆结石、脂肪肝、贫血和动脉硬化与T2DM正相关;3)T2DM的风险预测模型:用LASSO从体格检查和生活方式调查变量中筛选出了年龄、性别、SBP、饮酒量(g)、运动状况、吸烟量(支)、心率、腰高比(WHtR)、脂肪肝和胆囊疾病等10个变量,构建了 5种T2DM的分类模型。比较5种模型发现分类性能由高到低依次是XGBoost(准确性=0.850,精确度=0.833,召回率=0.876,F-1=0.854,AUC=0.925)、AdaBoost、随机森林决策树和逻辑回归。T2DM的影响因素排名前三的依次是年龄、血压和心率;4)T2DM亚型聚类模型:聚类得到三个亚型①年龄性别相关性亚型(比例占49.8%):以女性和汉族为主,年龄偏大、贫血(10.8%,P<0.05)的患病率较高,而身体测量指数以及代谢综合征的患病率较其他组低;②肥胖相关性亚型(比例占35.4%):维吾尔族比例、身体测量指数以及代谢综合征的患病率较其他组高;③高血糖为特征型(比例占14.8%):以男性和汉族为主,心率、部分血脂指标和空腹血糖指数在三组中最高。聚类模型效果验证:K-means模型的轮廓系数是0.40,Total Inertia是688,说明聚类模型有较好的效果。结论:本研究首先分析得到新疆成人IFG和T2DM患病率高达7.0%和10.5%,存在性别、年龄、民族、职业、生活习惯等的差异。构建的5种T2DM筛查模型,模型的特点是成本低、准确、可重复,适用于流行病学分险高的地区的大规模人群糖尿病的筛查。最后得到T2DM的三种亚型,分析了每种亚型的特点。本研究的模型经过实践验证后,可为2型糖尿病的提早预防和个体化精准治疗提供理论依据。