论文部分内容阅读
目的: 在拟合logistic回归模型过程中,当样本量较小,尤其是解释变量较多,数据分布不均衡,不满足渐近统计推断前提时,会出现分离问题,此时模型的最大似然估计不存在或者不可靠。本文旨在介绍解决分离问题的Firth惩罚最大似然估计法,将其应用到多分类logistic回归分析中。
方法: Firth惩罚最大似然估计方法的基本思想是在得分函数中加入惩罚项,从而将参数最大似然估计值的偏差减少。本文介绍了其方法及原理,结合实际问题介绍其在logistic回归中解决分离问题时的应用。用SAS及R软件对3个实际数据分别进行二分类logistic及多分类logistic回归分析,将该方法与最大似然估计及确切logistic回归结果进行比较。
结果: 通过对一般logistic小样本数据、二分类logistic分离数据及多分类logistic分离数据的分析,结果显示在最大似然可以得出参数估计值的情况下,参数估计值标准误的大小顺序均为惩罚最大似然估计最小,确切logistic其次,最大似然估计最大。分离数据的分析显示,在最大似然估计不能得出参数有效估计值的情况下,确切logistic回归及惩罚最大似然估计均能得出有效参数估计值。惩罚最大似然估计的参数估计值、标准误及P值均比最大似然估计的值小,确切logistic回归的参数估计值比惩罚最大似然估计值略小,其可信区间比惩罚最大似然估计结果宽。
结论: 在分离数据中,确切logistic及惩罚最大似然估计均能得出有效值,但由于确切logistic的计算复杂,可能出现过条件及条件似然退化等问题,更加推荐使用Firth最大似然估计解决分离问题。在最大似然可以得出有效估计值的情况下,样本偏小,最大似然估计容易导致参数估计偏高。