论文部分内容阅读
慢性疾病是人类生命健康的一大威胁。而在众多的慢性病中,糖尿病不仅损害了人们的身体健康,而且造成了沉重的经济和社会负担;而有效的早期筛检可以有效提高人类的生活质量,降低疾病负担,减少健康寿命损失年。然而,基于人群的大规模人口筛查不仅有较长的时间周期,而且会耗费巨额的人力物力。随着近年来机器学习的兴起与发展,越来越多的研究人员开始将机器学习模型作为筛检和预测的工具。为了提高人群的健康水平,在本研究中使用了人口学指标、身体测量指标、问卷调查、肠道微生物菌群作为非侵入的指标,来建立了糖尿病的筛检预测模型。本文分别选用了美国疾控中心(centers for disease control and prevention,CDC)的全国健康与营养调查(National Health and Nutrition Examination Survey,NHANES)和全人类微生物组计划(Integrative Human Microbiome Project,iHMP)中Ⅱ型糖尿病(type 2 diabetes mellitus,T2DM)的数据,来进行糖尿病的筛检与预测工作。首先,2011年到2016年的NHANES数据经过整理、清洗、和特征选择之后,被分为了三部分:80%的2011-2014的数据作为训练集,20%的2011-2014的数据作为测试集,2015-2016的数据作为外部验证集。使用了包括线性判别分析(linear discriminant analysis,LDA)、支持向量机(support vector machine,SVM)、随机森林(random forest,RF)三种机器学习方法及与之相对应的聚类学习方法来进行模型的构建。并采用5折交叉验证和外部验证集来衡量不同模型间的预测性能。结果显示,在5折交叉验证中,三种机器学习方法均具有良好的预测性能,其曲线下面积(area under the curve,AUC)均超过了0.800,而且其对应的聚类学习方法的AUC均有一定的提高,测试集与外部验证集也具有相同的趋势。在外部验证集中,LDA的聚类学习模型表现最为良好,其AUC为0.849、敏感性为0.819、特异度为0.709、准确率为0.730。然后将iHMP计划中的Ⅱ型糖尿病数据同样经过处理之后,按照不同的分组方式:即(1)随访时间划分和(2)样本编码划分,分为80%的训练集和20%的测试集。使用同样的三种机器学习方法,即LDA、SVM、RF,采用5折交叉验证和测试机来验证模型性能。在划分方式(1)中的5折交叉验证下,RF模型表现最为良好,其AUC为0.760,敏感性为0.601,特异度为0.756,准确率为0.693;在测试集下,SVM模型表现最为良好,其AUC为0.750,敏感性为0.368,特异度为0.882,准确率为0.676。在划分方式(2)中的5折交叉验证下,RF模型表现最为良好,其AUC为0.783,敏感性为0.640,特异度为0.770,准确率为0.716;在测试集下,RF模型表现最为良好,其AUC为0.645,敏感性为0.564,特异度为0.634,准确率为0.609。从以上结果可以得出,使用非侵入指标对Ⅱ型糖尿病进行筛检和预测工作是切实有效的,其可以应用于大规模人群从而达到二级预防和诊断的目的。综上所述,本文的创新点体现在以下几个方面:(1)选用非侵入指标:包括人口学指标、身体测量指标、问卷调查、人类肠道微生物菌群丰度作为特征进行Ⅱ型糖尿病的筛检和诊断工作;(2)建立了预测性能较高的Ⅱ型糖尿病的筛检预测模型。