论文部分内容阅读
目的:本研究应用XGBoost提升树模型和随机森林模型对中国健康与养老追踪调查数据库(高维)中与抑郁症状有关的变量进行初步筛选,再使用logistic回归模型对筛选后的数据进行分析,探索抑郁症状相关因素,了解中国45岁以上人群抑郁症状情况并为其预防和治疗提供可靠依据。方法:1.本研究使用2011年中国健康与养老追踪调查数据,调查对象为中国45岁及以上人群。抑郁症状应用抑郁量表简表(CES-D10)进行评估,根据文献将得分在10分及以上的定为有抑郁症状。2.根据最优参数构建XGBoost提升树模型和随机森林模型,按照变量重要性评分选出两个模型排名前100的变量,将两个模型的共同变量作为重要变量。使用选出的重要变量建立logistic模型,计算贝叶斯信息准则(Bayesian Information Criterions,BIC)评分,通过5-折交叉验证计算模型准确率,与使用全部变量建立的模型进行对比,评价变量筛选效果。3.本研究使用python3.7软件中XGBoost和Random Forest Classifier软件包以及R3.6软件中glm软件包进行分析。结果:1.数据库中共17708人样本,3998个变量,以血检数据中的人群为基础将其余11个数据文件合并后剩余11030人,3998个变量,经过清洗和整理,最终剩余8319例有效样本、476个变量。2.针对本研究数据,XGBoost提升树模型的最优参数:深度为6,学习率为0.01,棵数为10000。随机森林模型的最优参数:树的棵数为10000。3.XGBoost提升树模型和随机森林模型选出的相同变量有22个。4.应用以AIC为准则的逐步法建立logistic回归模型,模型BIC值为8673.50,5折交叉验证准确率为75.09%。5.logistic回归模型结果,该人群的抑郁症状相关因素OR值由大到小分别为生活水平、婚姻、记忆力、睡眠、健康、四种疼痛(爬楼或快步走时是否感到胸痛、是否感到头痛、是否感到手腕疼、身体疼痛程度)、生活能力(在椅子上久坐再站起来困难程度、连续爬楼困难程度、是否因健康和记忆原因上厕所、做家务和管钱有困难、慢跑一公里困难程度)和视力共16个,OR值最大为3.431为生活水平,最小1.091为慢跑困难程度。这些变量主要来自基本信息(1个为婚姻)、健康状况和功能(14个)、工作退休和养老金(1个为生活水平)三个数据文件。结论:1.面对跨学科、多维度的数据时,首先需要对数据进行整理。处理后直接建立的logistic模型复杂度较高,可以使用XGBoost模型和随机森林模型对变量进行筛选降维。使用筛选后变量建立的logistic模型,在不影响模型准确率的同时,模型复杂度大幅下降。2.本文最终选出16个抑郁症状相关变量,这些变量中非常重要的是生活水平,其次是婚姻,然后是记忆力。躯体疼痛指标包含4个,分别为胸痛、头痛、手腕疼及疼痛程度。生活能力的指标显示随着生活能力的下降更容易出现抑郁症状。睡眠、自评健康和视力的低水平也与抑郁症状有关。