论文部分内容阅读
模型选择是统计学重要的研究方向之一,并在计量经济学,金融学等领域有着重要的应用.为了避免模型选择过程的不确定性,以及存在选择到很差模型的风险,学者们提出了模型平均或预测组合的方法.由于模型平均估计是对所有候选模型的估计进行加权平均,故模型平均估计具有更加稳健的优点.普通最小二乘估计(Ordinary Least Squares,OLS)是一种常用的估计方法.尽管OLS是在所有无偏估计中方差最小的估计,却通常存在以下几个问题:(1)因变量y存在异常点(简称为异常点)或(和)随机误差项违背正态性假设;(2)自变量之间存在多重共线性(简称为共线性);(3)同时存在异常点和共线性.上述三个问题在许多实际数据中存在,特别是在比较流行的大数据以及复杂数据中.而基于最小二乘估计的常用的模型选择和模型平均方法,也会受到这些问题的影响,因此,稳健的模型选择和模型平均方法有待于进一步研究,本文将针对问题(1),(2),(3)下的稳健的模型选择方法和模型平均方法进行研究,具体研究成果包括以下几个部分:1)针对问题(1),即,因变量y存在异常点的情况,本文提出了基于Sp准则的,对异常点稳健的模型平均方法SMA(SpModel Averaging).所提出的SMA方法结合了经典模型平均和稳健模型选择两种方法.既考虑了异常点对模型选择的影响,同时与稳健模型选择方法相比,更充分地考虑了模型选择过程中的不确定性.通过大量的随机模拟研究,说明了所提方法相对于一些常见方法的优势.存在异常点的情况下,本文所提出的SMA方法在均方误差MSE准则下要一致优于一些常见的模型选择和模型平均方法;即使数据中不存在异常点,SMA的方法也能非常接近于本文比较中的最优的方法.最后通过对Stack loss实际数据分析进一步验证了所提方法的实用性和有效性.2)针对问题(2)中的多重共线性问题,本文将基于岭估计的Rp模型选择方法拓展到了模型平均,提出了一种新的模型平均方法,RMA(RpModel Averaging).能够在多重共线性的情况下,依然稳健地做出统计预测.在均方误差意义下,优于一些常见的模型选择和模型平均方法.通过蒙特卡洛模拟实验,探究了本文所提方法及常用模型选择和模型平均的有限样本性质.存在共线性情况下,特别是在样本量小,方差比较大的情况下,RMA方法明显优于常见的模型选择和模型平均方法,以及本文提出的SMA方法;不存在共线性时,RMA的表现与本文研究中的最优的方法几乎一致,因此证实了所提方法的优越性.最后通过对Hald水泥实际数据分析,验证了RMA方法的可行性.3)针对问题(3),也就是异常点与多重共线性共存的情形,本文在对异常点和共线性共存下稳健的岭M估计方法基础上,提出了稳健的模型选择准则,RMp,并进一步基于RMp准则提出了一种稳健的模型平均方法RMMA(RMpModel Averaging).通过模拟研究,表明了本文所提的方法相对于其他常用的模型平均和模型选择方法的有效性.具体来讲,异常点和共线性共存情况下,RMMA方法表现的几乎一致最优;在只有异常点情况下,RMMA与最优的SMA或Sp几乎一致;只存在共线性情况下,RMMA与最优的RMA或Rp相差很小;在既无异常点,也无共线性情况下,RMMA非常接近最优的MMA或Cp方法.对于烟草数据(Tobacco data)的实例分析进一步说明了RMMA方法的实用性.本文的创新点在于:(1)本文提出了对异常点稳健的模型平均方法SMA,一定程度上缓解了异常点对模型平均估计的影响,并通过数值模拟以及实例分析验证了所提方法的有效性;(2)在数据中存在多重共线性情况下,发展了一种对共线性稳健的模型平均方法RMA,有效地抵抗了模型平均中的共线性问题,模拟研究与具体的实例分析展示了RMA方法在共线性情况下相对于一些常用方法的优势;(3)针对数据中异常点与共线性共存的问题,提出了一种新的稳健的模型选择方法RMp,并以此为基础,得到了相应的异常点与共线性共存下的稳健的模型平均方法RMMA,蒙特卡洛模拟以及实际数据分析,表明了RMMA能够为模型平均方法提供一种保障机制.