论文部分内容阅读
背景有关logistic回归的样本量估计目前尚无实用的理论方法,实践中更多的是基于经验方法,即所谓应变量(结局变量)事件数(EPV, events per variable)方法,即应变量发生的事件数(阳性事件数和阴性事件数的最小值)需不少于模型中纳入的自变量个数乘以的倍数。目前已经开展的EPV方法的研究较多,如Harrell (1984), Concato (1995), Peduzzi (1995), Vittinghoff等(2006),通过模拟研究得出,采用基于最大似然估计(MLE, maximum likelihood estimate)的Wald方法时,EPV不小于5,10,甚至20等,才可保证回归分析结果稳健;杨晓妍(2005)的研究认为EPV应不小于10。然而,有关自变量的事件数(EIV, events of independent variable),即纳入模型的某一二分类自变量发生事件的个数(二分类中个数较小的那类),对模型的影响却鲜有研究,而此问题恰恰也是实际数据中经常会遇到的问题。如果EIV太小会导致logistic回归模型的估计失准或不稳定,可认为仅仅依靠EPV方法确定样本量是不够的,还需要结合EIV一起来确定样本量。为此,本研究将通过模拟研究探讨EIV对模型的影响,进而得到EIV界值的确定策略,为logistic回归的样本量估计提供更完善的经验方法。目的本研究采用Monte Carlo技术从EIV的角度探讨logistic回归模型的稳定性,并建立确定EIV界值的方法。方法Logistic回归分析最常用的参数估计方法是MLE,还有罚分似然估计(PLE,penalized likelihood estimate)、精确logistic回归、稀有事件logistic回归等。PLE最早被提出用于解决最大似然估计收敛但至少有一个参数估计发散至正/负无穷的问题,主要发生在EIV与非事件数不平衡和高风险因素情况下,该方法校正了MLE的偏倚,具有较好的性能,效果优于精确logistic回归和最大似然估计,但在实际应用中较少。稀有事件logistic回归原理是校正应变量发生事件的概率,从而保证回归结果的稳健性,且从杨晓妍模拟结果来看,该方法对模型结果改善较小。最常用的估计logistic回归系数的置信区间和假设检验方法是Wald方法,但轮廓似然方法(profile likelihood method)较Wald方法和Bootstrap方法更为稳健,能严格控制一类错误率,且检验效能优于Wald方法。因此,本研究分别选取MLE和PLE进行参数估计,选取Wald方法和轮廓似然方法估计回归系数的置信区间及假设检验。本研究采用Monte Carlo技术进行模拟研究,所有模拟及计算均通过R3.1.2软件实现。首先,模拟产生logistic回归的自变量(Ⅳ,independent variable)与应变量,6类模拟参数的设置为:自变量个数(1,4,8)、回归系数绝对值(0,1,2)、样本量(50,70,80,90,100,200,300,400,500)、EIV(1,2,3,4,5,7,10,12,14,16,18,20,25,35,45,50,60,70,80,90,100,150,200,250)、自变量间的相关性(0,0.5,0.8)、自变量事件发生率(5%,10%,15%,30%,50%)。参数设置非完全组合,其中,EIV最多为样本量的一半,且MLE下EIV最小为5;1个自变量模型不涉及相关性;仅在8个自变量模型中,设置自变量事件发生率。应变量则通过概率抽样获得,概率由人为设定的声和模拟自变量计算得到。每种参数组合下模拟10000次。其次,分别采用MLE和PLE对模拟数据进行参数估计,采用Wald方法和轮廓似然方法进行假设检验及置信区间估计。最后,以一类错误(Type I Error)、均方根误差(MSE, mean square error)、准确性(Accuracy)、精确性(Precision)和置信区间覆盖率(CI Coverage)等五个指标评价统计性能,由参数收敛的回归结果与开始设定值比较获得,从而探究EIV对模型结果的影响。当指标值达到期望值或达到相对稳定状态时对应的EIV即为EIV界值。结果EIV对logistic回归结果具有规律性影响,而自变量事件率的影响需结合样本量共同发挥作用。表1,给出不同方法和五个评价指标下,EIV的具体选择策略。基于MLE的Wald方法和基于PLE的轮廓似然方法,均可以较好地控制-类错误率,但是后者明显优于前者。基于MLE的Wald方法需要EIV达到20以上,一类错误率可以稳定保持在4%到6%之间;而基于PLE的轮廓似然方法需要EIV达到12以上,一类错误率可以稳定保持在5%附近。而基于MLE的轮廓似然方法需EIV达到12以上,但样本量要达到200以上,一类错误率可以稳定保持在5%附近;基于PLE的Wald方法需EIV达到45以上,且样本量也需达到200以上,一类错误率可稳定保持在5%附近。第二步为量化危险因素的强度,即参数估计的精准性方面。采用MLE方法时,EIV需分别达到18、12、16以获得稳定的均方根误差、准确性和精确性;而采用PLE方法时,EIV需分别达到12、12、7。最后为置信区间覆盖率方面,基于MLE的Wald方法和基于PLE的轮廓方法,可以将覆盖率较好控制在预期范围内,稳定控制在95%附近,但后者明显优于前者。基于MLE的Wald方法需要EIV达到30以上;而基于PLE的轮廓方法需要EIV达到14以上。而另外两种情况,基于MLE的轮廓似然方法受其他因素影响较大,很多情况不能达到预期值;而基于PLE的Wald方法EIV达到45以上,且样本量也需达到200以上。此外,自变量个数、回归系数绝对值、样本量及相关性对EIV界值存在一定影响,但在影响方向和强度上略微不同。结论在实际应用logistic回归模型时,应结合EPV和EIV一起确定样本量。就EIV而言,应不小于12。当EIV在12→20之间,可采用基于PLE的轮廓似然方法,以较好地控制一类错误并获得精准的参数估计;当EIV大于等于20时,基于PLE的轮廓似然方法和基于最大似然的Wald方法均可使用。进一步,当EIV在14→30之间,可采用基于PLE的轮廓似然方法,以较好地控制置信区间覆盖率;当EIV大于等于30时,基于PLE的轮廓似然方法和基于最大似然的Wald方法均可使用。以上两种方法在推荐的EIV情况下均可使用,优先推荐基于PLE的轮廓似然方法。在EIV较小又无法扩大样本量的情况下,logistic回归模型中可考虑剔除该自变量,以避免产生偏倚结果。