基于机器学习和非侵入特征的Ⅱ型糖尿病筛检研究

来源 :辽宁大学 | 被引量 : 0次 | 上传用户:xiaopanzi250
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
慢性疾病是人类生命健康的一大威胁。而在众多的慢性病中,糖尿病不仅损害了人们的身体健康,而且造成了沉重的经济和社会负担;而有效的早期筛检可以有效提高人类的生活质量,降低疾病负担,减少健康寿命损失年。然而,基于人群的大规模人口筛查不仅有较长的时间周期,而且会耗费巨额的人力物力。随着近年来机器学习的兴起与发展,越来越多的研究人员开始将机器学习模型作为筛检和预测的工具。为了提高人群的健康水平,在本研究中使用了人口学指标、身体测量指标、问卷调查、肠道微生物菌群作为非侵入的指标,来建立了糖尿病的筛检预测模型。本文分别选用了美国疾控中心(centers for disease control and prevention,CDC)的全国健康与营养调查(National Health and Nutrition Examination Survey,NHANES)和全人类微生物组计划(Integrative Human Microbiome Project,iHMP)中Ⅱ型糖尿病(type 2 diabetes mellitus,T2DM)的数据,来进行糖尿病的筛检与预测工作。首先,2011年到2016年的NHANES数据经过整理、清洗、和特征选择之后,被分为了三部分:80%的2011-2014的数据作为训练集,20%的2011-2014的数据作为测试集,2015-2016的数据作为外部验证集。使用了包括线性判别分析(linear discriminant analysis,LDA)、支持向量机(support vector machine,SVM)、随机森林(random forest,RF)三种机器学习方法及与之相对应的聚类学习方法来进行模型的构建。并采用5折交叉验证和外部验证集来衡量不同模型间的预测性能。结果显示,在5折交叉验证中,三种机器学习方法均具有良好的预测性能,其曲线下面积(area under the curve,AUC)均超过了0.800,而且其对应的聚类学习方法的AUC均有一定的提高,测试集与外部验证集也具有相同的趋势。在外部验证集中,LDA的聚类学习模型表现最为良好,其AUC为0.849、敏感性为0.819、特异度为0.709、准确率为0.730。然后将iHMP计划中的Ⅱ型糖尿病数据同样经过处理之后,按照不同的分组方式:即(1)随访时间划分和(2)样本编码划分,分为80%的训练集和20%的测试集。使用同样的三种机器学习方法,即LDA、SVM、RF,采用5折交叉验证和测试机来验证模型性能。在划分方式(1)中的5折交叉验证下,RF模型表现最为良好,其AUC为0.760,敏感性为0.601,特异度为0.756,准确率为0.693;在测试集下,SVM模型表现最为良好,其AUC为0.750,敏感性为0.368,特异度为0.882,准确率为0.676。在划分方式(2)中的5折交叉验证下,RF模型表现最为良好,其AUC为0.783,敏感性为0.640,特异度为0.770,准确率为0.716;在测试集下,RF模型表现最为良好,其AUC为0.645,敏感性为0.564,特异度为0.634,准确率为0.609。从以上结果可以得出,使用非侵入指标对Ⅱ型糖尿病进行筛检和预测工作是切实有效的,其可以应用于大规模人群从而达到二级预防和诊断的目的。综上所述,本文的创新点体现在以下几个方面:(1)选用非侵入指标:包括人口学指标、身体测量指标、问卷调查、人类肠道微生物菌群丰度作为特征进行Ⅱ型糖尿病的筛检和诊断工作;(2)建立了预测性能较高的Ⅱ型糖尿病的筛检预测模型。
其他文献
随着人们生活水平的提高,对能源的需要量也逐渐增加,伴随着大量能源的开采与消耗,能源短缺和环境污染问题迫使人们寻求更环保洁净的新能源。将自然界的冷量提取用于建筑制冷
目的:结直肠癌(colorectal cancer,CRC)是世界第三大恶性肿瘤。而在我国消化系统恶性肿瘤中,其发病率和病死率位居第四位。ATR-CHEK1和ATM-CHEK2信号通路已被证实与DNA损伤修
目的:对比经尿道直出光纤绿激光前列腺锐性剜除术(GTSEP)和经尿道选择性光前列腺汽化术(PVP)治疗良性前列腺增生症(BPH)的有效性和安全性,为GTSEP在临床上的应用提供循证医学
恶性颅内肿瘤是致死率最高的恶性肿瘤之一,其中髓母细胞瘤是儿童群体中最常见的神经系统恶性肿瘤。对于癌症研究来说,在小鼠上创建可靠的疾病模型对疾病诊断以及治疗手段的开
电力系统是一个存在着诸多随机扰动的高维非线性网络,如原动机扭矩的随机振动、负荷的随机波动等等。近年来,随着风力、太阳能等可再生能源发电的大量并网,电动汽车的广泛推
目的:探讨经尿道直出绿激光膀胱肿瘤整块剜除术(FGLEBT)治疗直径
本文以研究高钙灰活性为主要内容.在本实验体系原材料质量条件下,采用高钙灰与钢渣复配并利用生石灰和磷石膏进行活性激发,使高钙灰掺量达到30﹪,钢渣掺量达到20﹪,矿物掺合料取
木质素是地球上含量第二丰富的生物聚合物,由于其固有的异质性和顽固性,不经预处理就难以得到有效的转化。由于非再生能源的不断消耗,因此增加了生物质,尤其是木质素向高附加
目的探讨6种miRNAs(miR-15b-5p、miR-17-5p、miR-19a-3p、miR-20a-5p、miR-92a-3p、miR-146b-3p)在早期非小细胞肺癌、良性肺结节与健康人群外周循环血中的表达差异并分析其
高脂血症(Hyperlipidemia,HLP)是由总胆固醇(TC)、甘油三酯(TG)、低密度脂蛋白胆固醇(LDL-C)升高,和/或高密度脂蛋白胆固醇(HDL-C)降低等多种原因引起的全身性脂代谢紊乱。近