论文部分内容阅读
在多元线性回归建模中,自变量的选择至关重要,一般从预测的准确性和模型的可解释性两个方面进行约束自变量个数的选择.数目众多的自变量可以反映更多响应变量的信息,从而达到更高的预测准确性,然而太多的自变量将导致模型可解释性减弱,应用价值大打折扣;自变量的太少的话,不足以反映响应变量的信息,因而预测准确性显著降低.变量选择问题的研究中,大多是在普通最小二乘法的基础上,附加关于待估计参数的约束条件,也就是增加惩罚函数,转化为惩罚最小二乘法.由于约束条件的压缩作用,会使得部分待估计参数变为0,从而实现变量选择的目的.此类方法中的常用经典算法有LASSO算法、适应性LASSO算法、SCAD算法以及弹性网算法.本文考虑待估计参数受到随机因素的影响前提下,建立了新的惩罚函数及惩罚最小二乘估计方法,并对该方法进行评价,具体内容如下:首先,系统介绍了变量选择方法的发展过程、通过添加惩罚函数来实现变量选择的基本思想;详细分析了LASSO算法、适应性LASSO算法、SCAD算法以及弹性网算法的建立过程和各自的优缺点:由于LASSO算法中惩罚函数的特性,导致在变量选择时选取的自变量个数偏多,同时存在多重共线时LASSO算法效果很差,于是适应性LASSO算法在LASSO的基础上进行改进,使得估计所得系数更加稀疏,选择更少的自变量;SCAD算法效果更加更明显,不仅可以选择更少的自变量,同时所得估计量满足稀疏性、无偏性、连续性以及Oracle等一系列优良性质;弹性网方法是将LASSO与经典的岭回归法结合而建立的新的变量选择方法,该方法主要优势在于处理自变量中出现组效应时的情形.其次,考虑到Gamma分布和Weibull分布是两类重要的寿命分布类,具有广泛的应用,于是分别假定参数受到的随机影响因素服从Gamma分布和Weibull分布,建立了新的惩罚函数以及惩罚最小二乘估计方法.文中通过层次极大似然估计法构造新的惩罚函数,讨论了惩罚函数性质,给出了参数估计的方法并证明新建立的惩罚最小二乘量满足Oracle性质.最后,通过案例分析对新建立的变量选择方法进行评价.文中以均方误差和平均绝对误差作为评价指标,选取了以往文献中使用的经典案例进行分析,计算各评价指标,并和LASSO算法、适应性LASSO算法、SCAD算法以及弹性网算法计算的结果进行对比,我们发现,新建立的算法处理稀疏情形优势明显,均优于其他算法,而对于非稀疏情形,效果和适应性LASSO算法差异不大.