论文部分内容阅读
广义线性模型在经济、生物、医学等领域中有着广泛地运用。然而随着实验样本的增加,特别是当维数p远大于样本数量n时,传统的估计方法选不出真实的模型。在这样的高维问题中,我们用惩罚来做模型的变量选择,即把无用的变量系数压缩为零,而把真正起作用的回归参数保留下来。
考虑广义线性模型Yi=G(Xiβ)+εi,i=1,…,n其中Y服从指数族分布f(y.口,(ψ))=exp{y0-b(0)/a((ψ))+c(y.(ψ))}它的变量选择有以下几种基本方法:
第一,LASSO方法
(β)n(glm)=argminβnΣi=1[-yi(XTiβ)+b(XTiβ)]+λnpnΣj=1|βj|
第二,Dantzigselector
min||β||1subj(e)ctto||l(″)((β)mle)(β-(β)mle)||∞≤λ
第三,Bridge方法
(β)n(glm)=armminβnΣi=1[yi-G(XTiβ)]2+λnpnΣj=1|βj|r
虽然这些方法解决了用超多变量来做估计的困难,但是它们都把有显著意义的变量给压缩了。这种偏差会随着p的增大而显著增加。本文研究了估计参数的期望与惩罚参数之间的关系。发现三种方法在一定的条件下,都有统一的关系式。如下所示(β)λκ=β+(φ)(β,μ)/nλκ+(ε)κ因而由这个统一形式,我们重新建立一个线性回归模型,把(β)λk看成Y,把λk看成X。很显然,线性模型的常数就是参数真值,估计它我们会重新得到了参数估计值。通过定理和数值模拟,都可以证明再回归得到的估计能使偏差和方差都减小。