论文部分内容阅读
面对高维数据,常规的最小二乘方法不再适用,为了提高模型的可解释性和预测的准确度,变量选择变得很重要。如何高效地从众多的变量中筛选出对因变量有重要作用的若干个变量,是统计学家们考虑的问题。1996年,统计学家Tibshirani提出了重要的Lasso方法,变量选择的大幕由此拉开。此后,相继出现了多种针对高维数据的变量选择方法。常见的有五种,分别是:Lasso、Adaptive Lasso、Elastic Net、SCAD、SIS。前四种方法都是在最小二乘的基础上施加惩罚,以此来控制口的长度。在提出这些方法时,统计学家证明了相关的理论,并进行了数值模拟,有的还与其他方法进行了比较。本文旨在通过数值模拟和实证分析的方法来综合地、全面地比较这五种方法。在数值模拟部分,文章考虑了样本量n与数据维数p的关系、自变量之间的相关性大小等六种情形,比较了几种方法的表现。在实证分析部分,文章引用了急性淋巴性白血病研究的数据和甄别垃圾邮件的研究数据,采用上述五种方法选择变量。对模拟和实证的结果进行分析后,发现这几种方法均能较好地进行变量选择。(1)作为具有里程碑意义的方法,由于其惩罚项的几何性质,Lasso能够把变量的系数朝0压缩,并且恰好会把某些系数变成0。(2)Adaptive Lasso方法对Lasso的惩罚项做了修正,相当于对其惩罚做了加权,它在Lasso的基础上进一步压缩参数,文章的结果表明,该方法选择的模型相对于Lasso的结果更加稀疏,可解释性更强,更为重要的是,该方法满足Oracle性质。(3)Elastic Net是Lasso和岭回归的结合,参数α控制着权重,该方法同时继承了Lasso和岭回归的优点,结果表明,该方法选择的变量比Lasso的多。最重要的是当数据出现组效应时,该方法展现出了它独有的优势,而其他几种方法则失灵了。(4)SCAD降维的效果明显,相对其他方法,通常选择较少的变量,并且最后的估计量满足无偏性、稀疏性、连续性三个性质。(5)SIS则适用于超高维数据的粗略降维,它考虑的是自变量和因变量的相关系数。模拟表明,对于超高维的数据,首先使用SIS降维,然后再使用其余的四种方法,比单独使用这些方法效果要好很多。