论文部分内容阅读
摘要目的整理某市1985年2008年猩红热月发病率资料,探讨单纯求和自回归滑动平均(ARIMA)模型和求和自回归滑动平均模型与广义回归神经网络(ARIMA-GRNN)组合模型在1985年2008年猩红热月发病率的拟合与预测研究中的应用。方法收集1985年2008年猩红热月发病率和1985年2006年每月气象因素资料。用秩相关对猩红热月发病率与气象因素间进行单因素分析。对1985年2008年猩红热月发病率资料进行统计分析,选取合适时间段资料用于模型的拟合。先对资料建立ARIMA模型,然后将猩红热月发病率的ARIMA模型拟合值作为GRNN网络的输入,猩红热月发病率的实际值作为网络的输出来训练网络。最后比较单纯ARIMA模型和ARIMA-GRNN组合模型的效果。结果猩红热月发病率可能与平均气温、平均相对湿度和最低气温有统计学关联。由于时间序列分析具有以时间变量综合代替各影响因素的优点,不需要知道影响结局变量的相关因素,所以在后期建模时没有考虑气象因素对猩红热发病率的影响。1985年2008年猩红热月发病率资料经过初步分析,最后选取1990年2008年猩红热月发病率为建模数据。经Cox-Stuarts趋势检验,提示1990年2008年猩红热月发病率没有上升或者下降的趋势,同时白噪声检验也提示1990年2008年猩红热月发病率不是白噪声序列而是蕴含一定量的信息。SPSS19.0提供的Expert Modeler建模器提示ARIMA(0 , 0 , 2)×(1 , 0 , 1)12模型为最优模型,模型表达式为(1 - 0.974 B12)Xt= 0.15 +(1 + 0.366 B + 0.363 B2 )(1 - 0.863B12 )εt。该模型残差通过白噪声检验,Box-Ljung Q统计量为15.857(P=0.322)。光滑因子从0.001开始取值,每次增加一个单位量0.001到0.02,分别对待估点进行预测,计算待估点预测值与实际值误差序列的误差均方根(RMSE)值,最后光滑因子确定为0.007,此时待估点的RMSE值达到最小为0.04356。单纯ARIMA模型和ARIMA-GRNN组合模型的平均误差率(MER)分别为35.5%、31.2%;决定系数(R2)分别为0.703、0.761。结论单纯ARIMA模型和ARIMA-GRNN组合模型均可以用于1990年2008年猩红热月发病率的拟合与预测的研究中,而ARIMA-GRNN组合模型的效果要优于单纯ARIMA模型。