论文部分内容阅读
结构突变亦称变点。结构突变问题是统计学、计量经济学、信号处理和生物信息学等诸学科领域中非常活跃的研究问题。关于结构突变理论的研究,首要的问题就是检测变点发生的个数和时刻(位置)。从统计学的角度上来看,在统计建模中,如果数据结构本身存在变点而忽视变点的存在就完全可能产生错误的统计模型,或者错误的模型参数估计等统计分析结果,所建模型也就没有任何实际意义。在金融时间序列上,检测结构变点,可以在变点时刻附近有针对性地找出引发结构突变的原因,还可以评价一个事件或一项新政策对经济发展的影响。 模型选择和变量选择是现代统计学研究的前沿热点之一。Tibshirani(1996)在Bridge Regression和Nonnegative Garrote思想方法的启发下,提出了一种新的基于带惩罚思想的变量选择方法—LASSO。带LASSO类惩罚的变量选择方法的最大特点是可以在参数估计的同时实现变量选择。带LASSO类惩罚的变量选择方法保留了传统子集选择方法的优点,弥补了传统子集选择方法在变量选择上的不足之处,在现代统计学领域引起了研究者的广泛关注,可以说在变量选择问题研究上具有里程碑式的意义,之后有许多学者相继提出了针对LASSO的改进技术。 本文首先简单介绍了文中用到的LASSO及其相关变量选择方法,主要有(Adaptive)LASSO,(Adaptive)Group LASSO,Sparse Group LASSO及(Adaptive) LAD-LASSO稳健变量选择方法等。基于带惩罚变量选择的变点检测研究方法,是2008年才提出的处理变点检测问题的最新研究方法,本文综述了这一变点检测方法的研究进展。 本文主要考虑均值转移模型、线性回归模型及自回归时间序列模型中的多变点检测问题,把带LASSO类惩罚的变量选择方法引入变点检测问题研究中,这一新检测方法的基本思想是通过适当转换把多变点检测问题转化成带LASSO类惩罚的变量选择问题来解决,这样可以将现代变量选择的丰富研究成果引入变点检测问题研究中。与传统变点检测方法不同,传统变点检测方法一般先检验是否存在变点及变点个数,然后再估计推断变点时刻(位置)。类似于LASSO方法的特点是可以同时实现参数估计和变量选择,带LASSO类惩罚变量选择的变点检测方法的独特优势是能同时实现变点个数和变点时刻的估计,而且具有良好的快速计算能力,可以用于大数据环境下的变点问题,使得LASSO类变量选择方法在变点检测问题研究上具有很强的应用活力,是最近几年处理变点检测问题的最新研究方法。由于直接运用带惩罚变量选择方法得到的一步变点估计是过估计的,本文考虑两步估计法。在第二步,对于第一步得到的初步变点估计集合A中的每一个“变点”,检验其是否为真的变点就是一个在给定时点数据模型结构是否发生变化的两样本检验问题,本文提出在第二步运用两样本变点检验从中筛选出真实变点。 本文的研究工作主要在于以下几个方面: 1.对于均值转移模型中的变点检测问题,当模型误差项分布服从重尾分布或数据集含异常值时,一般认为最小一乘LAD估计比最小二乘OLS估计更加稳健,因此,本文将LAD稳健估计与LASSO变量选择方法两者结合起来,提出了基于(Adaptive)LAD-LASSO稳健变量选择的均值转移模型中变点估计的一种新检测方法,在问题转化过程中对相应优化问题的约束条件仅做一次松弛。由于直接运用LAD-LASSO方法得到的一步变点估计是过估计的,本文提出在第二步运用邹氏检验筛选出真实变点。随机模拟和实例表明所提出的估计方法是切实可行的,算法更加简单易行,且估计结果具有很好的稳健性。 2.对于多元线性回归模型中的变点检测问题,本文将线性回归模型中的变点检测问题转化成了Adaptive Group LASSO群组变量选择问题来解决,同时给出了变点个数、变点位置和不同区域上模型回归系数的一步(初步)估计。在适当的条件下,当变点个数估计(m)=m时,证明了变点时刻估计和回归系数估计的相合性。由于直接利用Adaptive Group LASSO得到的变点一步估计是过估计的。本文提出在第二步用邹氏检验筛选出真实变点。 3.对于一阶自回归AR(1)时间序列模型中的变点检测问题,本文将AR(1)中的变点检测问题转化成Adaptive LAD-LASSO稳健变量选择问题来解决。对于p阶自回归AR(p)时间序列模型中的变点检测问题,本文将相应的变点检测问题转化成了Adaptive Group LASSO群组变量选择问题来解决,同时给出了变点个数、变点时刻和不同区域上自回归系数的一步(初步)估计。在适当的条件下,给出了变点个数、变点时刻及自回归系数估计的相合性定理。由于直接利用Adaptive Group LASSO得到的变点一步估计是过估计的。本文提出在第二步用似然比检验筛选出真实变点。 4.对于p阶自回归AR(p)时间序列模型中的变点检测问题,当p较大时,为了在每一段上得到稀疏的更易解释和预测的自回归模型,本文把Sparse GroupLASSO双层变量选择方法引入变点检测研究中。这里不仅考虑组间稀疏性,也考虑组内稀疏性。组间稀疏性可以得到变点的估计,组内稀疏性可以得到每段上模型系数的稀疏解。本文将相应的变点检测问题转化成了Sparse GroupLASSO变量选择问题,从而同时给出了变点个数、变点时刻和不同区域上自回归系数的一步(初步)估计。在适当的条件下,探讨变点个数、变点时刻和自回归系数估计的相合性定理。由于直接利用Sparse Group LASSO得到的变点一步估计是过估计的。本文提出在第二步用似然比检验筛选出真实变点。