论文部分内容阅读
背景:大量时间序列数据蕴藏着丰富的信息,合理而充分地利用这些信息对揭示事物发展规律以及预测发展趋势都是非常有意义的。经典回归方法对变量均值建模,预测误差时大时小并且随着回归误差的变化而变化,自回归条件异方差(ARCH)模型的条件均值和条件方差是一个关于时刻t之前的观察值的函数,有效的解决了条件均值和条件方差非常数的问题。广义自回归条件异方差(GARCH)模型实现了从线性模型到非线性模型的飞跃。
ARCH和GARCH模型的随机扰动项假设服从正态分布,便于计算,但是由于可变的条件均值和条件方差允许序列中存在更多异常值或极大(小)值,往往难以满足正态分布的前提假设。在正态分布中引入偏度参数得到偏正态(SN)分布,将SN分布应用到非线性GARCH模型,即GARCH-SN模型,可以有效地处理非正态随机扰动的困扰。
非线性GARCH模型参数估计很困难,最小二乘估计不适用于异方差的情况,极大似然估计计算量大但收敛速度很慢,还可能得不到有限解。GARCH-SN模型的拟极大似然估计中,SN分布的密度函数是通过对其特征函数进行快速傅里叶变换得到,其结果是近似的。传统频率学派方法对基于SN分布的时间序列模型的参数估计存在局限性,解决模型参数估计这一棘手问题具有重要的理论研究价值和实际应用价值。
目的:本研究旨在建立GARCH(p,q)-SN(λ)模型的Bayes估计方法,以克服GARCH-SN模型的拟极大似然估计方法中存在的计算复杂、无有限解及近似解等缺陷,实现GARCH(p,q)-SN(λ)模型有效可靠的参数估计。
方法:首先,讨论SN分布中偏度参数λ的估计。设Y~SN(λ),将Y随机表示为Y=√1-δ2V+δU,其中δ=λ/√1+λ2,V~N(0,1)和U~ TN(0,1;[0,∞))相互独立。根据Bayes-Laplace原则,设δ先验服从U[-1,1],则λ~ t(0,1/2;2)。
然后,给定时间序列Y={yt},假设平稳时间序列部分为均值方程,即yt=μ+δt|t-1εt(.)
待估参数有均值μ,偏度参数λ,GARCH模型参数{αi}qi=00和{βj}pj=1。令α=(α0,α1,…,αq),β=(β1,…,βp),参数向量记为Φ=(α,β,μ,λ)。GARCH(p,q)-SN(λ)模型的MCMC方法迭代过程如下。
(1)从满条件分布f(zt|α,β,μ,λ,yt)∝exp{1-|ft(Γ,ε0,y1,…,yt)/tλ(yt)|2}|ft(Γ,ε0,y1,…,yt)/tλ(yt)|2中抽取辅助变量{2t}nt=1,采用ARS方法。
(2)从后验分布π(λ|α,β,μ,y,z)∝exp{-nΣi=1|zi/tλ(yi)|2}nΠj=1|zt/tλ(yt)|2π(λ)中抽取偏度参数λ,采用M-H算法。
(3)从后验分布π(μ|α,β,λ,y,z)∝exp{-nΣi=1|ft(Γ,ε0,y1,…,yt)/tλ(yi)|2}中抽取平稳时间序列部分的参数μ,采用M-H算法。
(4)抽取模型参数α={αi}qi=0和β={βj}pj=1,采用Griddy-Gibbs抽样。
通过以上过程得到GARCH(p,q)-SN(λ)模型所有参数的MCMC抽样,也就是得到了参数的后验分布样本,从而利用样本来计算参数估计值。
模拟:利用R2.15.0进行统计模拟,取GARCH(1,1)-SN(λ)模型:θ=(0.05,0.20,0.50,0.20),θ=(0.05,0.20,0.50,0.80),θ=(0.05,0.20,0.70,0.20),θ=(0.05,0.20,0.70,0.80),θ=(0.05,0.50,0.20,0.20),θ=(0.05,0.50,0.20,0.80),θ=(0.05,0.70,0.20,0.20),θ=(0.05,0.70,0.20,0.80),重复抽样10000次,样本量分别为200、500、1000,参数θ=(α0,α1,β,λ)的模拟结果如下。
(1)各个参数的马尔科夫链平稳收敛,后验分布的密度曲线平滑、呈钟型特征,随着输入样本量的增大,马尔科夫链的接受率(1-rejectionRate)越来越接近1,模拟过程越来越稳定。
(2)各参数之间的相关关系不密切。
(3)参数估计值满足平稳性条件(α)1+(β)<1。
(4)(α)0与α0相比偏小,且随着样本量的增大(α)0向α0收敛,当样本量达到500以上时与α0近似,估计效果好。
(5)当α1+β<1但不是很接近1,且λ较小时,模型平稳:(α)1与α1相比偏小,随着样本量的增大从左边向α1收敛;(β)与β相比偏大,随着样本量的增大从右边向β收敛;当样本量达到500以上时两个参数的估计值与对应的真值近似,估计效果好。
(6)当α1+β<1但不是很接近1,且λ较大时,模型平稳:(α)1随着样本量的增大从左边向α1收敛;当参数β的真值较小时,(β)与β相比偏大,随着样本量的增大从右边向β收敛;当参数β的真值较大时,(β)与β相比偏小,随着样本量的增大从左边向β收敛:当样本量达到500以上时两个参数的估计值与对应的真值近似,估计效果好。
(7)当α1+β<1且比较接近1,且λ较小时,模型平稳:(α)1和(β)均随着样本量的增大而增大,并且当样本量达到500以上时两个参数的估计值与对应的真值近似,估计效果好。
(8)当α1+β<1且比较接近1,且λ较大时,模型平稳:(α)1随着样本量的增大逐渐增大向α1收敛;当参数β的真值较小时,(β)与β相比偏大,随着样本量的增大从右边向β收敛;当参数β的真值较大时,(β)随着样本量的增大逐渐向β收敛。
(9)误设扰动项分布假设时,大样本条件下三个主要参数(α0,α1,β)的估计:α0的估计稳定;当α1+β<1且比较接近1,且λ较大,α1的估计有偏;当α1+β<1且不是很接近1,且λ较大,β的估计有偏。
实例:讨论广州市每月死亡人数时间序列模型应用比较,利用R2.15.0和GTMS3.0软件进行统计分析和建模,共48个月数据(每月平均死亡人数1939.5±304.9例,中位数为1814.5例,最小值为1544例,最大值为2881例),不满足正态性假设(Shapiro-Wilk value=0.8635,P<0.001)。在滞后12月、24月、36月等时刻季节自相关,提示利用季节差分序列进行建模,AR(1)12模型残差不服从标准正态分布。建立AR(1)12-SN(λ)模型并计算12步预测,该模型可以有效的拟合广州市每月死亡人数序列,中短期预测效果较好。
结论:第一,本文建立了GARCH(p,q)-SN(λ)模型的Bayes估计,MCMC方法有效的模拟了各个参数的边缘后验分布,模拟过程平稳收敛,是GARCH(p,q)-SN(λ)模型的一种有效可靠的参数估计方法。
第二,本文模拟提示如果忽视对随机扰动项分布的识别检验,即使在大样本条件下也会导致GARCH模型参数估计是有偏的,导致拟合和预测效果的降低,因此在此类模型进行建模时需要对随机扰动项的分布进行正确的识别。
第三,对不满足经典模型中扰动项分布为标准正态分布假设的某些序列,用基于SN分布的时间序列模型可以有效的拟合序列波动变化特征,提高预测效果。此类模型可以用于流行病发病例数、医院门诊量、投资收益率等方面的预测,它是对经典时间序列模型一种有意义的应用扩展。
不足之处:
(1) GARCH(p,q)-SN(λ)模型本身和Bayes估计方法都要求样本量较大,当样本量不足时估计误差较大,不适用于小样本的时间序列预测应用;
(2)模拟实验中编程设计时输入集样本量的设置还需要进一步的研究;
(3) GARCH(p,q)模型的定阶问题还需要进一步的研究;
(4)研究工作和资料积累有限,应用实例的选择有待于进一步的实验遴选。