论文部分内容阅读
目的:传染病发病通常受到很多因素的影响,因此准确的预测传染病的发病情况存在着很多难度,近年来随着机器学习方法研究的不断深入,在预测分析方面得到了很大的应用。本文在分析河北省2004-2016年布鲁氏菌(布病)每月发病规律的基础上,利用气象因素构建了基于机器学习方法的布病预测模型,来预测疫情动态和发展趋势,为制定相应的预防策略提供科学依据;论文中运用了神经网络、支持向量机、随机森林三种机器学习算法对布病进行预测,通过比较不同机器学习的预测精度来选择最佳模型,为传染病的预测研究拓宽思路,为实际工作提供更多的解决办法。材料与方法:从公共卫生数据中心官方网站收集了2004-2016年河北省每月布病发病的人数和发病率信息。河北省每月的气象因素资料通过中国气象数据网获得。利用Spearman相关性分析对气象因素与布病发病率之间进行单因素关联分析,筛选出有统计学意义的气象因素,然后把相应的气象因素作为机器学习方法的输入层,布病每月发病率作为输出层建立神经网络、支持向量机、随机森林机器学习方法模型。2004-2015年的数据作为训练集,2016年的数据作为测试集,对2016年每月的布病发病率进行预测,通过比较预测值与真实值之间的误差确定最佳预测模型。结果:2004-2016年间,河北省一共报道了43628例布病病例,平均每月发病人数为280人,月平均发病率为3.898(/百万);13年间布病发病率有上升的趋势,并且具有明显的周期性和季节性。气象因素与布病发病率之间具有相关性,利用气象因素构建的三种机器学习方法模型预测效果良好,其中最佳模型为神经网络模型,预测结果的MAPE=0.178;而ARIMA模型的表现较差,MAPE=0.668。因此从预测结果来看,机器学习方法模型优于ARIMA模型,神经网络模型为最佳预测模型,在实际应用中可能具有更高的价值。结论:气象因素与布病发病率存在着显著的相关性,利用气象因素可以构建机器学习模型来预测布病未来的发病率,以达到早期预警的目的,提前做好预防措施,有利于将布病的危害控制到最小程度。