论文部分内容阅读
时间序列数据往往具有显著的时序性、复杂的非线性、严格的动态连续性特征,预测难度较大。预测结果的好坏在很大程度上取决于所采取的数据分析方法和预测模型。预测工具的合理选择是决定预测结果好坏的基础和前提。模型定阶、变量筛选、训练样本选择一直是时间序列分析的重点和难点问题,也是影响预测结果精度的关键,这三个环节常与预测工具选择耦合在一起。农业经济时间序列属于复杂的非线性时间序列,因此,本文选取当下最流行的非线性逼近能力优异的时间序列分析模型BP神经网络(back-propagation neural network, BPNN)模型和支持向量机回归(support vector machine regression, SVR)模型作为建模预测工具,并分别从建模工具改进和时间序列分析两个方面着手,提出了两个高精度的非线性时间序列分析预测方法:REMCC-BPNN (BPNN based on the Minimum Correlation Coefficient of the fitting Relative Error)和GS-RSR-SVR(SVR based on Geo-statistics and Reasonable Sample Rejection)。1) REMCC-BPNN模型传统BPNN具有操作过程复杂、参数难以确定、易陷入局部极小值等明显缺陷。REMCC-BPNN基于N个最近训练样本拟合相对误差绝对值与时序的相关系数最小原则优化BPNN的网络结构,原理简单,操作简便。将该模型应用到我国粮食产量及我国农业总产值指数等多个数据独立预测中,结果表明,REMCC-BPNN模型的预测精度优于BPNN、SVR、ARIMA、CAR等常用的时间序列预测模型。REMCC-BPNN预测精度高,稳定性好,泛化能力优异,具有较大推广价值。2) GS-RSR-SVR模型时间序列具有明显的时序性特征,即t时刻的观察值不仅受t时刻自变量因素的影响,还受t-1、t-2、…、t-i时刻的观察值和自变量因素影响,如何量化这种影响关系对于时间序列预测至关重要。现有的模型定阶方法存在拓阶过程繁琐耗时、拓阶易提前终止、难以获得全局最优阶数等缺陷,而GS-RSR-SVR基于一维地统计学(geo-statistics, GS)半变异函数变程(后效时间长度)工具实现了时间序列快速充分定阶。由于原始自变量因子选取的经验性和模型定阶等原因,自变量中难免存在多重共线性等重叠信息,消除这些信息冗余能在很大程度上提高预测结果精度。GS-RSR-SVR采用拟合训练样本均方误差(mean squared error, MSE)是否变小原则淘汰冗余自变量(简称“多轮末尾淘汰法”),尽可能让最小自变量数覆盖影响因变量的全部信息。采用全部历史样本数据或以固定滚动窗方法选择的训练样本数据难以准确反映时间序列间的强时间相关性,GS-RSR-SVR利用比较不同“遗忘”程度的训练样本拟合残差绝对值和时序的相关系数最小标准,不间断的合理剔除最陈旧的无用训练样本,既精简了训练样本数目,又保留了时间序列的显著时序性特征。将GS-RSR-SVR应用到我国粮食产量、农业总产值指数等农业经济时间序列数据的预测中,结果表明,GS-RSR-SVR的预测精度明显优于MLR、ARIMA、 CAR、BPNN、SVR、SVR-CAR等常用时间序列预测模型,且亦优于REMCC-BPNN模型。GS-RSR-SVR预测结果精度高、泛化能力强、预测能力稳健,在农业科学、经济学等多维时间序列预测领域具有广泛的应用前景。