论文部分内容阅读
研究背景:登革热是影响广东省的重要蚊媒传染病。珠三角地区地处广东省中部,气候温暖湿润且降雨量丰富,十分适合伊蚊孳生与繁殖,有利于登革热传播。改革开放以来,激增的人口和频繁的对外交流又为登革热传播提供了条件。自2012年以来珠三角地区登革热疫情又逐年上升趋势,2014年发生了20年来最严重的暴发流行。面对严峻登革热疫情,如能提供精细空间尺度的登革热风险评估工具,可为登革热的防控工作提供依据和方向。研究方法:首先收集2007-2015年珠三角地区登革热病例数据及2011.10-2015.12的气象、环境和社会经济因素相关数据,构建多源数据集;以月为时间单位街道为空间单位计算频率、持续时间和强度指标,通过相关性分析及观察时间和空间分布探索频率-持续时间-强度指标体系用于登革热风险评估的可行性;在此基础上以2012年1月至2014年9月数据为训练集,训练登革热流行频率、持续时间和强度的随机森林回归模型;建模过程中利用递归特征消除法及交叉验证法初筛待选变量及选择模型参数,并以2014年10月至2015年12月数据为验证集评估模型准确性及用于未来登革热风险评估可行性;最后,分别构建频率、持续时间和强度的支持向量机、广义相加模型和广义线性模型,评估随机森林回归模型相较于登革热风险评估或预警常用模型的表现。结果:研究发现频率、持续时间和强度指标在时间和空间分布上与发病数指标有一定的相似性,亦存在差异;通过相关性分析发现三者于发病数的相关系数均高于0.7。依据训练集构建的登革热流行频率、持续时间和强度的随机森林回归模型变量解释度为96.72%、91.98%及90.1%,提示模型拟合度较好;在10次10折交叉验证可见各模型均方误差分别0.0019,1.4246和1.8811,均处于较低水平;比较随机森林回归、支持向量机、广义线性模型和广义相加模型的准确性表现,随机森林回归和支持向量机等机器学习模型均方误差远低于广义线性模型和广义相加模型。结论:频率-持续时间-强度指标体系可用于登革热风险评估,相较于发病数指标具备反应登革热流行特征和识别流行模式的优势;依据登革热频率、持续时间、强度信息及气象、环境及社会经济特征构建的随机森林回归模型准确性良好,可作为登革热风险评估工具,提供登革热风险预警信息。