论文部分内容阅读
目的:慢性阻塞性肺疾病(Chronic Obstructive Pulmonary Disease,COPD)是一种以不完全可逆、持续性气流受限为特征的慢性病。尽管COPD的危险因素已基本明确,但研究显示不同地区COPD患病率存在较大差异,危险因素也不完全一致,其原因可能是不同的经济水平、生活方式和人口老龄化模式等。目前,辽宁省尚缺乏大规模的、基于严格抽样的COPD流行病学调查,不利于开展有针对性的COPD防控。此外,多数COPD患者早期可无明显症状,导致病情进展到中重度才被诊断,不仅治疗效果不佳,也会造成巨大社会经济负担;而肺功能检查作为目前公认的COPD诊断的金标准,由于耗时较多、耗费较大,还未能广泛开展。因此,开发高效的COPD患病风险评估工具来筛查高危人群、提高肺功能检查率以实现早诊早治,对COPD的防控具有重大意义。贝叶斯网络(Bayesian Network,BN)是一种概率图模型,也是机器学习的重要算法之一。BN可根据已知条件来估算出不确定的知识。当BN应用于疾病状态预测时,其可根据个体的各疾病相关因素的状态估算疾病状态的概率,从而实现个体患病风险评估。本研究拟以全国慢阻肺监测项目为平台,在严格抽样的人群流调的基础上,运用BN建立适合辽宁省居民疾病特点且实用的COPD患病风险评估模型。本研究的主要目的为:(1)调查辽宁省40岁及以上人群的COPD患病率情况,明确辽宁省COPD的流行水平。(2)初步探讨辽宁省COPD的相关危险因素,分析COPD相关危险因素的特点。(3)建立辽宁省COPD患病风险评估模型,筛查高危人群,为制订COPD的针对性防控策略提供科学依据。研究方法:本研究按照多阶段整群随机抽样原则在辽宁省40岁及以上人群中进行抽样。根据城镇化高低水平,经济有效和实际可行情况抽取4个COPD监测点;在每个监测点抽取3个街道/乡镇;在每个街道/乡镇抽取2个居委会/村;在每个居委会/村中选择一组至少有100户的居民/村民小组;在每个居民/村民小组随机抽取100户,利用KISH表在每户随机抽取1名年龄≥40岁成人进行调查。由经过统一培训的疾控中心人员对符合标准的抽样对象进行面对面问卷调查以及肺功能检查。肺功能检查按照美国胸科协会(ATS)的标准进行测试,测试指标为进行支气管扩张试验前后的一秒用力呼气容积(FEV1)、六秒用力呼气容积(FEV6)、用力肺活量(FVC)和呼气最大峰流速(PEF)。参照GOLD(2017)推荐的COPD诊断标准制定本研究的COPD诊断定义和肺功能严重程度分级,即使用支气管扩张剂后,FEVl/FVC<70%为COPD。为使结果对辽宁省40岁及以上人群有代表性,患病率的计算均经复杂加权调整。本研究未对缺失数据进行填补。采用频数、构成比描述人群的基本情况和危险因素暴露水平,运用Rao-Scottc2检验比较COPD患病率情况在不同组间的差异;采用Logistic回归分析探讨影响COPD患病的主要因素。将数据集按9:1的比例分为训练集和测试集,在训练集的基础上构建BN预测模型。结合Logistic回归结果、文献查询及专家经验设置黑名单和白名单后,进行结构学习和随后进行参数学习,初步建立评估模型。然后基于模型预测结果梳理COPD患病的高风险条件。通过内部验证(5-折交叉验证)和外部验证(测试集验证)对BN的表现进行评估。釆用Pad录入和存储数据资料,描述性统计分析及logistic回归分析采用SAS 9.2(SAS Institute Inc,Cary,NC,USA)进行分析;贝叶斯网络构建及风险评估采用R软件(版本3.6.2,The Comprehensive R Archive Network,http://cran.r-project.org/)中的“bnlearn”模块进行分析。所有检验均为双侧检验,如P<0.05则认为差异有统计学意义。研究结果:选取沈阳新民市、本溪明山区、丹东东港市、阜新海州区,共计抽取2400人,回收有效问卷2397份,肺功能检查达到C级以上者2194(98.43%)人。辽宁省COPD总体患病率为21.23%,农村居民患病率(24.59%)高于城镇居民(13.92%,c2=20.24,P<0.001);男性居民患病率(23.89%)高于女性居民(18.88%,c2=6.89,P=0.009);未婚居民患病率(37.57%)高于已婚居民(19.95%,c2=19.80,P<0.001);不同年龄段居民COPD患病率不同,年龄越高患病率越高(c2=206.77,P<0.001);不同文化程度居民的COPD患病率不同,文化程度越高COPD患病率越低(c2=145.76,P<0.001);不同经济收入居民COPD患病率不同,经济收入越高COPD患病率越低(c2=32.77,P<0.001)。辽宁省城乡居民COPD知晓率仅为7.34%,肺功能检查率为4.65%;COPD患者中,轻度(GOLD1)患者占79.82%。Logistic回归分析显示男性(OR=1.473 95%CI:1.219~1.781)、高龄(51~60OR=1.763 95%CI:1.284~2.421;61~70 OR=2.860 95%CI:1.817~4.503;≥71 OR=5.78995%CI:5.438~6.163)、中等收入(OR=1.105 95%CI:1.029~1.186)、吸烟(OR=1.43795%CI:1.284~1.609)、冠心病(OR=1.393 95%CI:1.004~1.934)、儿童期严重呼吸道感染(OR=1.781 95%CI:1.405~2.257)、父母患有哮喘(OR=3.482 95%CI:2.167~5.596)、室内燃料污染(OR=1.287 95%CI:1.079~1.534)、职业有害气体/粉尘暴露(OR=1.620 95%CI:1.178~2.227)等因素是影响COPD患病的危险因素,高文化程度(6~9 OR=0.596 95%CI:0.533~0.665;<9 OR=0.405 95%CI:0.329~0.498)、14岁前与吸烟者同住(OR=0.737 95%CI:0.548~0.991)是COPD的保护因素。基于BN的COPD患病风险评估研究显示,年龄、经济收入、吸烟、暴露有害粉尘、暴露有害气体、BMI以及咳嗽与喘息症状与COPD直接相关,性别、城乡、文化程度等因素可以通过其它因素间接影响COPD的患病率。某个体暴露单一因素或具有呼吸系统症状时,患COPD风险概率最高的人群主要为具有经常咳嗽症状即P(COPD|咳嗽)=0.374,具有喘息症状即P(COPD|喘息)=0.326,高龄和吸烟即P(COPD|高龄)=0.293,P(COPD|吸烟)=0.253。当不同条件/因素逐渐叠加时,个体患COPD的风险整体升高。两种因素同时叠加时,患COPD的风险概率最高的组合为P(COPD|咳嗽,喘息)=0.553,P(COPD|咳嗽,高龄)=0.511;三种因素同时叠加时,患COPD的风险概率最高的组合为P(COPD|咳嗽,喘息,高龄)=0.681与P(COPD|咳嗽,喘息,冠心病)=0.625;四种因素同时叠加时,COPD患病风险概率最高为P(COPD|咳嗽,喘息,吸烟,高龄)=0.738。本研究的交叉验证结果显示,贝叶斯网络模型较logistic回归模型效果好,BN模型的AUC平均值为0.85(0.832~0.892),最佳准确度为0.87(0.846~0.893),均高于logistic回归模型(AUC0.776~0.764、准确度0.825~0.840)。结论:1、辽宁省40岁及以上城乡居民COPD总体患病率与全国相比处于较高水平,但COPD知晓率和肺功能检查率均远远低于国家长期规划提出的目标。2、整体上COPD患者中肺功能轻度(GOLDⅠ)患者所占比例较高,COPD患者呼吸道症状比例最高的为喘息和呼吸困难,合并的慢性病主要为高血压和冠心病。3、本研究发现男性、高龄、吸烟、个人疾病史(儿童期呼吸道感染和冠心病)、父母患有呼吸系统疾病(父母患有哮喘等)均是影响辽宁省居民患COPD的危险因素,高经济收入与高文化程度、儿童期与吸烟者同住是COPD的保护因素;与全国调查结论不同,职业有害因素暴露与室内污染燃料(生物燃料和煤炭燃料)均是影响辽宁省居民患COPD的危险因素。4、本研究基于BN构建的COPD患病风险评估模型优于logistic回归模型,具有良好的预测效果,提示BN等机器学习方法构建的人工智能模型可作为COPD患病风险评估的有效工具。5、BN模型发现,本地区的高危人群依次为具有咳嗽、喘息症状、高龄、吸烟等;单纯肥胖的居民患病风险低于暴露其他因素居民的患病风险,但肥胖与高龄和吸烟联合暴露时,患病风险概率高于高龄和吸烟与职业有害气体、有害粉尘、男性、农村等因素的组合。