论文部分内容阅读
目的通过对2015年深圳市慢性病及其危险因素监测调查,分析深圳市18~69岁居民高血压的流行现状及其影响因素,基于哈佛癌症指数方法建立高血压风险评估模型,通过机器学习算法构建高血压风险预测模型,为我国高血压防控工作提供科学依据和评价工具,也为慢性病的风险评估研究提供新思路。方法采用多阶段随机整群抽样方法,在深圳市各个行政区中随机抽取10个社区,在抽取的社区中随机抽取130户居民家庭,对目标家庭选取1名18~69岁居民为调查对象。调查内容包括人口学特征、行为生活方式、身体测量、实验室检测等,最终纳入10058人。计量资料采用均数±标准差表示,两组间比较采用t检验、秩和检验;计数资料采用频数、构成比,描述高血压的分布特征,运用χ2检验和Fiser’s确切概率比较组间的分布差异,趋势分析采用趋势卡方检验。基于Logistic回归分析筛选高血压主要影响因素,利用哈佛癌症指数方法建立高血压风险评估模型。使用Logistic回归、随机森林和支持向量机三种机器学习算法建立高血压风险预测模型。本研究主要采用SPSS25.0和Python3.6统计软件进行数据分析,具体包括描述性分析,多因素分析。使用Python3.6进行机器学习建立预测模型。采用MedCalcl18.2.1绘制受试者工作特征(ReceiverOperating Characteristic,ROC)曲线。结果1、基本情况:本次研究最后纳入10058名18~69岁居民,平均年龄43.58±12.00岁。其中男性4112人(40.88%),平均年龄43.13±11.81岁;女性5946人(59.12%),平均年龄43.90±12.12岁。名族以汉族为主(占97.55%),文化程度以高中/中专/技校及以下为主(占73.63%),婚姻状况以在婚为主(占89.55%),大部分人有医疗保险(占90.51%)。2、深圳市居民高血压流行现状:深圳市18~69岁居民高血压粗患病率22.72%,其中男性27.09%,女性19.69%,差异有统计学意义(χ~2=75.768,P<0.001)。高血压标化患病率20.07%,男性24.72%,女性16.81%。经趋势卡方检验,随着年龄的增长高血压患病率逐渐升高(Z=7.718,P<0.001),高血压患病率随着文化程度的升高而降低(Z=-3.927,P<0.001)。不同婚姻状况高血压患病率差异有统计学意义(χ2=145.725,P<0.001),丧偶人群高血压患病率最高(50.00%)。职业、吸烟、饮酒、口味偏咸、口味偏咸、睡眠时间、体质指数(Body mass index,BMI)、甘油三酯(Triglyceride,TG)、高密度脂蛋白胆 固醇(High density lipoproten-cholesterol,HDL-C)、糖尿病均与高血 压有关(P<0.05)。3、基于哈佛癌症指数建立高血压风险评估模型:多因素Logistic回归分析筛选的影响因素包括,性别、年龄、文化程度、饮酒、BMI、中心性肥胖、高TG血症、低HDL-C血症、糖尿病。哈佛癌症指数构建的高血压风险评估模型结果显示,人群平均危险分数为34.06分,随着风险等级升高高血压患病人数增多(Z=8.600,P<0.001)。模型预测性能评估显示,ROC曲线下面积(Area under curve,AUC)及其95%CI为0.768(0.749-0.786),最佳切点为比值R取0.954,可作为模型预测个体患高血压的最佳阳性临界点,此时约登指数最大为0.43。该点对应的诊断试验的灵敏度为80.2%,特异度为62.4%。4、基于机器学习建立高血压风险预测模型:利用信息增益进行特征选择,纳入机器学习的特征依次为,年龄、BMI、腰围、糖尿病、文化程度、HDL-C、TG、性别等8个变量。与不采样相比,SMOTE (Synthetic Minority Oversampling Technique)过采样后三种机器学习算法建立的预测模型性能在AUC、F1度量、灵敏度方面均有所提升。Logistic回归、随机森林、支持向量机三种机器学习算法建立的高血压风险预测模型AUC及95%CI分别为0.776(0.757~0.794)、0.774(0.755~0.792)、0.778(0.759~0.796),灵敏度方面支持向量机最高为0.77,F1度量均为0.51。ROC曲线分析显示,经DeLong法检验三种机器学习算法两两之间差异均无统计学意义(P值均大于0.05),表明三种机器学习算法预测性能相当。最佳切点(即阈值)方面,Logistic回归模型最佳切点是0.4546,约登指数0.43,对应的灵敏度79.74%,特异度62.91%;随机森林模型最佳切点为0.4470,约登指数为0.43,此时灵敏度为82.35%,特异度60.01%;支持向量机模型最佳切点是0.4949,约登指数0.43,此时灵敏度76.47%,特异度66.13%。结论1、2015年深圳市18~69岁居民高血压患病率低于全国水平,存在明显的人口学特征、行为生活方式分布差异。2、深圳市居民高血压主要影响因素包括:年龄、BMI、腰围、糖尿病、文化程度、HDL-C、TG、性别、饮酒。3、利用哈佛癌症指数建立的高血压风险评估模型预测性能较好,能有效实现个体疾病风险的量化和分层,可作为高血压风险评估的评价工具,当然模型外推和应用还需要进一步验证和完善。4、机器学习算法建立的高血压风险预测模型性能较好,可为基层社区健康服务中心提供高血压防治评价工具,但是模型应用到实践还需要经外部验证。