论文部分内容阅读
如何通过统计方法从大量的备选因子中选取少量的活跃因子,是复杂系统研究中的重要课题之一。超饱和设计是一种解决试验中因子主效应(含截距项)个数p大于设计中不同水平组合个数n的有效设计方案。由于其节约、高效的特点,被广泛应用于复杂系统因子筛选试验中。惩罚最小二乘法,即在最小二乘回归的目标函数中加入对非零系数的惩罚项,是一种广泛应用的变量筛选统计方法。本文针对超饱和设计下的试验数据,在惩罚最小二乘框架下研究了大量因子的有效筛选问题。
Fan and Li(2001)引入了一种SCAD(Smoothly Clipped Absolute Deviation)惩罚函数来研究变量筛选问题,并在p<n的条件下证明了由这类惩罚函数导出的估计当n→oo时具有大样本“Oracle性质”。这里,“Oracle性质”的意思是,零系数的估计以趋近于1的概率为0,非零系数估计的渐进分布与已知零系数条件下的渐进分布一致。本文借鉴边缘桥估计的思想,基于这种惩罚函数提出了一种新的边缘SCAD估计来解决超饱和设计下的变量选择问题,并在p>n的条件下,证明了该估计当n→oo时具有大样本“Oracle性质”。在边缘SCAD适用的条件下,本文利用聚类的思想,提出了一种新的变量筛选算法。计算机模拟显示,该算法比Bayesian方法(Chipman et a1.,1997; Beattie et al.,2002)、 Dantzig Selector(Candes and Tao,2007)、 PLSVS(Zhang et al.,2007)、 SCAD方法(Fan and Li,2001)有更高的准确率挑选出非零系数,对模型中非零系数个数的估计也更加准确。
在惩罚最小二乘回归方法中,惩罚函数的选择十分重要。历史上引入了多种惩罚函数,如LASSO估计的Li惩罚(Tibshirani,1996)、桥估计的Lq惩罚(Frank and Friedman,1993)以及最小最大凹惩罚(MCP(Minmax Concave Penalty))(Zhang,2009)等。本文在综合比较这些函数的基础上,提出了一类条件更宽泛的惩罚函数族P,其包含上述的SCAD、MCP惩罚函数作为特例。在p>n条件下,本文证明了由这类宽泛惩罚函数P导出的惩罚最小二乘估计当n→∞时具有近似的“Oracle性质”。特别地,针对SCAD、MCP和函数族P中的指数积分惩罚函数,本文基于五个E(S2)最优超饱和设计、每个设计选取两种非零效应个数这10种不同的组合情形进行模拟计算比较。结果显示,在最优参数选择下,MCP、指数积分、SCAD分别平均有99.2%、98.8%、91.4%的正确模型识别率。指数积分函数的正确模型识别率比SCAD和MCP受参数影响较小,在实际计算中,其能在更小的范围内搜索最优参数,节省时间。