论文部分内容阅读
目的:1、探讨支持向量机(SVM)回归模型在整合百度搜索引擎数据和传统流感监测数据中的应用;2、探讨北京、辽宁省流感SVM回归模型应用。研究方法:北京、辽宁省2011年1月-2016年12月每月流感发病率数据来自中国国家公共卫生科学数据中心。以“流感”为初始值在“站长之家”挖掘与“流感”关系最为密切的网络关键词。然后在百度指数上收集挖掘出的网络关键词在北京与辽宁省2011年1月-2016年12月的月搜索量。分析不同滞后期关键词与流感发病率之间的相关性,选择相关性有统计学意义且相关系数大于0.4的百度搜索关键词进入SVM回归模型的构建中。采用穷举法列举SVM回归模型中的三个参数(C、γ、ε)的可能取值,再采用“留一法”交叉验证的方式来选择较优模型参数值进行模型构建。采用均方根误差(RMSE)和均方根相对误差(RMSPE)两个评价指标对模型的性能进行评价。相关分析采用IBM SPSS 22.0软件,SVM回归模型构建使用R 3.4.2中e1071包进行。结果:北京流感发病率的变化幅度比较大,季节性特别明显,且在流感流行高峰季节的发病率呈现逐年递增。辽宁省在流感高峰期的发病率变化幅度相较于北京小很多。相关分析结果显示北京有26个百度关键词进入模型,辽宁省有17个百度关键词进入模型。基于北京流感数据的SVM回归模型中较优模型参数值分别为C=6,γ=0.005,ε=0.01,基于辽宁省流感数据SVM回归模型中较优参数值为C=3,γ=0.005,ε=0.01。北京基于百度关键词数据的模型RMSE和RMSPE最小,为5.491561和0.605623,这两个指标的值与整合数据来源的指标值相差不大,并且都比基于以往流感发病率数据来源的模型指标值要小,可以认为北京的百度关键词模型和整合数据模型的预测效果要好于只基于以往流感发病率数据的支持向量机回归模型。基于滞后1月流感发病率+百度关键词整合数据来源的辽宁省支持向量机回归模型的RMSPE是最小的,为0.290522。因此辽宁省滞后1月流感发病率+百度关键词整合数据模型的预测效果要优于基于以往流感发病率数据的模型。结论:利用互联网搜索引擎查询数据作为传统流感监测的补充数据源具有一定可行性,SVM回归模型对辽宁省流感疫情的跟踪是有效的。基于辽宁省流感历史发病数据与百度搜索数据的支持向量回归模型比基于北京流感历史发病数据与百度搜索数据的模型更加稳定。