L1正则逻辑回归、L1正则支持向量机和梯度提升决策树对阿尔兹海默症的分类诊断

来源 :山西医科大学 | 被引量 : 2次 | 上传用户:z504555643
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的:阿尔兹海默症(Alzheimer’s Disease,AD)由于病情具有多样性和个体异质性,在实际临床分类诊断中存在困难,神经影像学在AD诊断领域发挥着越来越重要的作用。本文提出一种基于大脑皮质、海马体积和基底核的自动分类的技术。该技术应用机器学习的方法,实现对阿尔兹海默症、轻度认知障碍和正常认知对照组的自动分类诊断。AD分类的最终目标是通过应用已在大量患病和健康个体上训练过的分类模型,通过单次MRI扫描生成个体诊断,并预测疾病早期阶段的进展。具体实现两个目标:1.找到高效的特征选择方法,使得挑出的特征值能够作为辅助诊断的重要依据,使临床诊断更高效。2.通过选择合适的机器学习模型,对模型进行优化和校正,训练出适用于临床分类诊断的分类器,提高临床诊断的准确性。方法:1.随机取ANDI数据库(Alzheimer’s Disease Neuroimaging Initiative,ANDI)中543名受试者资料,资料项目包括受试者ID号、结构性磁共振(Structural Magnetic Resonance Imaging,sMRI)图像、简易精神状态评价(Mini Mental State Examination,MMSE)、年龄、性别、受教育时间,根据AD诊断标准将受试对象分为正常对照组(Normal Cognitive,NC)、早期轻度认知障碍(Early Mild Cognitive Impairment,EMCI)、晚期轻度认知障碍(Late Mild Cognitive Impairment,LMCI)、AD患者,人数依次为139、220、108、76人。2.特征提取应用Free Surfer软件,先将sMRI图像预处理后,提取到272项数据。提取到的数据涵盖皮层表面积、皮层下体积、海马亚区体积、皮层体积和皮层厚度,数量分别为70、49、16、69、68项。3.特征选择分为两部分:第一部分,对272项大脑皮质、海马体积和基底核数据利用L1正则逻辑回归(L1-regularized Logistic Regression,L1-LR)、L1正则支持向量机(L1-regularized Support Vector Machine,L1-SVM)、梯度提升决策树(Gradient Boosting Decison Tree,GBDT)特征选择模型进行特征选择,得出不同的特征选择数据指标。第二部分:对276项数据,即272项脑影像学数据加3项人口统计学指标(年龄、性别、受教育时间)和MMSE分值后再用以上3种特征选择模型进行特征选择。4.构建分类模型,评价分类器将步骤3中特征选择出的两部分数据分别进入三种机器学习算法(L1-LR、L1-SVM、GBDT),训练出精确识别正常认知者和不同程度AD患者的分类模型。采用10折交叉验证策略对方案进行评价。结果:1.特征选择结果:(1)L1-LR特征选择模型中,272项指标中,在NC-EMCI、NC-LMCI、NC-AD、EMCI-LMCI、EMCI-AD、LMCI-AD两组间分别有65项、37项、22项、52项、38项、41项指标被选择。276项指标中分别有67项、42项、11项、56项、21项、20项指标被选择。NC-EMCI组中,MMSE分值、年龄、性别、受教育时间排第3、9、22、39位;在NC-LMCI组,MMSE分值、年龄、受教育时间排第3、5、23;在NC-AD组,MMSE分值、性别、受教育时间排第1、4、7;在EMCI-LMCI组,MMSE分值、年龄、受教育时间排5、8、30;在EMCI-AD组,MMSE分值、年龄、受教育时间排第3、6、17;在LMCI-AD组,MMSE分值、年龄、受教育时间排第1、3、10。(2)L1-SVM特征选择模型中,272项指标中,在NC-EMCI、NC-LMCI、NC-AD、EMCI-LMCI、EMCI-AD、LMCI-AD两组间分别有133项、86项、58项、112项、78项、78项指标被选择;276项指标中分别有121项、82项、22项、113项、39项、53项指标被选择。在NC-EMCI组中,MMSE分值、年龄、性别、受教育时间排第4、14、31、75位;在NC-LMCI组,MMSE分值、年龄、受教育时间排第6、8、46;在NC-AD组,MMSE分值、性别排第1、10;在EMCI-LMCI组,MMSE分值、年龄、性别、受教育时间排5、10、28、64;在EMCI-AD组,MMSE分值、年龄、受教育时间排第3、7、23;在LMCI-AD组,MMSE分值、年龄、性别排第2、7、14。(3)GBDT特征选择模型中,272项指标中,在NC-EMCI、NC-LMCI、NC-AD、EMCI-LMCI、EMCI-AD、LMCI-AD均有80项指标被选择;276项指标中均有80项指标被选择。在NC-EMCI组中,年龄、MMSE分值、性别、受教育时间排第1、3、16、25位;在NC-LMCI组,年龄、MMSE分值排第20、23;在NC-AD组,受教育时间排第32;EMCI-LMCI组中,年龄排71;在EMCI-AD组,MMSE分值排第1;在LMCI-AD组,MMSE分值、年龄、受教育时间排第1、20、73。2.分类预测结果:(1)当特征选择模型与分类预测模型为同一类时,预测效果比不同模型组合的好。(2)272项脑影像学数据中,L1-LR的整体预测准确率和稳定性相比L1-SVM和GBDT更高,而且经十折交叉验证后的效果也更好。(3)276项数据中,三种模型的预测准确率比272项数据均有不同程度提高。L1-LR模型的分类预测准确率范围是82.93%~97.66%,敏感度和特异度范围分别是58.27%~95.25%和86.26%~100.00%。L1-SVM模型的分类预测准确率,敏感度和特异度范围分别是58.27%~95.25%和86.26%~100.00%。GBDT分类准确率范围是82.71%~97.26%,敏感度和特异度范围分别是41.45%~100.00%和47.06%~96.53%。结论:1.276项数据作为分类器的输入特征,能提高分类器的分类性能,获得更高的准确性。276项数据包含基于大脑皮质、海马体积和基底核的脑影像学数据的272项数据和年龄+性别+受教育时间+MMSE分值4项数据。2.基于276项数据的L1-LR模型和L1-SVM模型在不同的组别识别各自表现出高的准确率,可以作为临床分类诊断的辅助工具。3.基于276项数据的L1-LR模型和L1-SVM模型特征选择出的特征,在临床上具有解释意义,且可信度强,可以作为鉴别两组时重点关注和监测的对象。L1-LR模型中,大脑皮层特征按重要度排名:皮层厚度>表面积>皮层体积>皮层下体积;L1-SVM模型中,大脑皮层特征按重要度排名:皮层厚度>皮层体积>表面积>皮层下体积,同时,海马亚区中大量指标参与分类。4.L1-LR模型和L1-SVM模型鉴别的准确率趋势一致,对各组的准确率由高到低依次是:NC-AD、EMCI-AD、NC-LMCI、LMCI-AD、NC-EMCI、EMCI-LMCI。
其他文献
根据连续三年的田间观察试验结果,对引种栽培的13种草坪草品种,从物候斯、覆盖度、密度、再生速度、品质特性及抗逆性等进行对比分析。筛选出了适合贵州南部生态条件下栽培的优良
目的:探讨PBL教学法在手术患者体位摆置教学中的应用效果。方法:选取2015年3月至2016年3月期间在解放军第260医院手术室进行实习的30名护生作为本次研究的对象。随机将这30名护
对甘肃大溪河流域亲甲鱼的繁殖性能进行为期3年的观测,结果表明,每年6月上旬于8月中旬,是该地区亲甲鱼的产卵季节,亲甲鱼的产卵力和开产率与个体大小呈强正相关(r=0.9817),与气温和水温的变化无
摘要:黔西高原海拔区是南方主要绵羊产区之一,但目前集约型羊场和农户小规模羊群的草地利用效率与家畜生产性能均未达到应有的水平。其原因之一,是现行放牧系统本身的制约影
本文研究了在不同深度耕翻下,羊草根茎营养物的变化情况。试验结果表明,无论是浅耕,还是中耕、深耕,羊草根茎的总糖、磷、钙、镁的百分含量都明显比相应的对照高。根据四种营
本文对河北北部低山丘陵区主要草地类型的牧草产量和牧草营养物质含量动态进行了研究。结果表明生长季内草地牧草产量的积累为单峰型;林缘草甸、草甸草原牧草产量较典型草原
为了进一步提高企业技术人员的业务素质,促进热处理行业的技术进步,提高制造产品的质量水平,增强企业的竞争实力,更好地为制造业服务。全国热处理学会决定2011年5月陆续举办第三
近年来,随着旅游业的飞速发展,遗产旅游成为旅游市场的重要组成部分。作为重要的旅游吸引物,遗产旅游对旅游市场产生重要的影响,同时也成为旅游热点。西安作为中华文明和中华
目的:观察电针对功能性消化不良(FD)大鼠的行为学、组织形态学及胃肠动力学的影响,探讨电针激活AMPK通路调节FD大鼠Ghrelin的可能机制。方法:随机挑选12只SD大鼠纳入正常组。
随着第五代移动通信技术的迅速发展,对器件的尺寸和性能要求越来越高,而滤波器在通信系统中演着十分重要的角色,常常被用于锁相环反馈回路和抑制混频后产生的镜像干扰,因此,高性能且小型化的滤波器设计就显得尤为重要,也是学术界与工业界的研究重点。低温共烧陶瓷(LTCC)技术和砷化镓衬底的集成无源器件(IPD)技术十分有利于器件的小型化设计,前者允许设计者在第三个维度上进行设计,后者能够满足对元件尺寸的高精度