论文部分内容阅读
目的:本研究旨在采用不同特征选择和集成学习算法,将结构磁共振图像特征和临床信息数据相结合,探讨和识别阿尔茨海默病(Alzheimer’s Disease,AD)的进展阶段诊断标记物,构建AD分类辅助诊断模型。为实现疾病风险的早期预警,医疗决策自动化的AD临床辅助诊断,提供帮助与技术支撑。方法:本研究采用的数据从阿尔茨海默病神经影像学计划(Alzheimer’s Disease Neuroimaging Initiative,ADNI)获得,研究对象共493名。选取脑部结构磁共振成像(Structural Magnetic Resonance Imaging,sMRI)数据和临床信息(包括年龄、性别、教育年限、婚姻状态,认知评估量表)。所有研究对象分为:正常对照(normal control,NC)125名、早期轻度认知障碍(Early Mild Cognitive Impairment,EMCI)患者121名、晚期轻度认知障碍(Late Mild Cognitive Impairment,LMCI)患者109名和AD患者138名。基于体素的形态学测量分析(voxel-based morphometry,VBM)对MRI神经影像进行特征提取,采用支持向量机递归特征消除(Support Vector Machine-Recursive Feature Elimination,SVM-RFE),L1正则化Logistic模型,基于梯度提升决策树(Gradient Boosting Decision Tree,GBDT)特征选择算法进行预处理,对冗余特征进行消除以简化分类模型。结合临床信息,通过机器学习方法支持向量机(support vector machine,SVM),随机森林(Random Forest,RF),Ada Boost,GBDT以及Stacking集成策略,采用十折交叉验证,构建AD分类辅助诊断模型。其中Stacking算法属于多分类器组合方法,将SVM,RF,Ada Boost,GBDT四种稳定学习器作为初级分类器进行组合学习,次级分类器则采用逻辑回归算法,构建AD分类辅助诊断模型。评价指标包括准确率、灵敏度、特异度、F1 score、ROC曲线下的面积(Area Under ROC Curve,AUC)。结果:使用sMRI特征构建AD分类辅助诊断模型,Stacking集成模型性能优于SVM,RF,Ada Boost,GBDT四种单一分类模型。NC-EMCI,NC-LMCI,NC-AD,EMCILMCI,EMCI-AD,LMCI-AD在单一分类模型准确率范围分别为66.23%~66.72%,67.48%~71.36%,83.68%~87.07%,66.96%~68.70%,79.54%~81.82%,69.62%~73.33%,AUC范围分别为0.6898~0.7098,0.7065~0.7790,0.9255~0.9412,0.7051~0.7558,0.8637~0.8380,0.7757~0.8001;Stacking模型准确率分别为74.32%,77.46%,88.61%,75.36%,88.46%,74.67%,AUC分别为0.8393,0.8149,0.9591,0.7943,0.9382,0.8415。使用sMRI特征+临床信息数据构建AD分类辅助诊断模型,Stacking集成模型性能依然优于SVM,RF,Ada Boost,GBDT四种单一分类模型。NC-EMCI,NC-LMCI,NC-AD,EMCI-LMCI,EMCI-AD,LMCI-AD在单一分类模型准确率范围分别为71.15%~75.97%,79.47%~82.86%,95.04%~96.96%,70.43%~73.91%,94.57%~95.77%,83.78%~87.83%,AUC范围分别为0.7799~0.8208,0.8761~0.9112,0.9872~0.9905,0.7750~0.8083,0.9857~0.9886,0.9320~0.9548;Stacking模型准确率分别为81.08%,85.91%,97.47%,78.26%,97.44%,86.67%,AUC分别为0.8724,0.9254,0.9987,0.8467,0.9967,0.9681。结合临床信息特征后NC-EMCI,NC-LMCI,NC-AD,EMCI-LMCI,EMCI-AD,LMCI-AD的模型准确率分别提高了6.76%,8.45%,8.86%,2.90%,8.98%,9.34%。结合临床信息特征后的Stacking模型准确率由高到低依次是NC-AD,EMCI-AD,LMCI-AD,NC-LMCI,NC-EMCI,EMCI-LMCI。结论:本研究提取了sMRI神经影像非结构化数据,探讨了AD的脑部变化情况及萎缩区域。将sMRI特征结合人口学信息和认知测量,体现了诊断标记物的低成本与无创性,在一定程度上使模型的各方面指标更优。Stacking集成模型分类结果优于单一分类器,有较好的效果与泛化能力,证实了模型的可行性。本研究采用Stacking集成策略对AD建立多分类辅助诊断模型,实现在老年人群体中AD高危患者的早期筛查、识别和疾病风险预警,形成将认知功能损害和神经影像学标志物异常相结合的AD的诊断模式,为可以早期监测MCI进展为AD,识别AD的早期阶段和减缓AD发病提供参考。同时,可为进一步研究相关脑部疾病的早期诊断防治技术提供方法学借鉴。