论文部分内容阅读
在建模过程中经常会碰到许多变量,因此如何从众多变量中选出对因变量较为重要的若干变量,是统计学家们在回归分析中所要考虑的问题。经典的变量选择方法包括基于AIC准则、向前(后)法以及逐步回归等已被广泛应用。Tibshirani(1996)提出了Lasso方法,此后众多学者通过对Lasso方法的改进提出了适应性Lasso、Elastic Net等一系列的正则化方法。上述的这些变量选择方法均已被广泛研究于完全观测数据。 然而,在实际应用中数据缺失的情况会经常发生,与完全观测数据相比,缺失数据存在下的变量选择是一个新的挑战。特别是存在不同的缺失数据机制,并且对于每一个机制有不同的统计方法来处理缺失数据。因此,用于变量选择的方法需要适合缺失数据机制,并用统计方法处理缺失数据。目前基于缺失数据的线性模型的变量选择方面的研究文献较少。 本文的笔者首先对稳定性选择和Bootstrap Lasso方法做研究,将其应用于完全观测数据,并与其他正则化方法做比较。稳定性选择是一个适用于完全观测数据的普通子采样或重采样的变量选择方法。它具有两个显著的优势:第一,用稳定性选择得到的变量选择结果对正则化数量和门限值π并不十分敏感;第二,随机Lasso的稳定性选择与在设定条件下的变量选择是一致的。在此基础上,笔者研究了可以与填补结合的变量选择方法,即基于自助法填补的稳定性变量选择方法(BISS)和基于自助法填补的Bootstrap Lasso变量选择方法(BIBL)。与现有的方法相比,这两个方法适用于一般缺失数据模式,可以处理高维问题,所有现有的方法只能研究低维问题。本文提出的方法具有一般性,并且适用范围广。本文的模拟研究和实例分析证明了BISS方法的表现是最好的或接近最好的,而且就变量选择而言该方法对调整参数值相当不敏感。