Logistic回归样本量确定所需自变量事件数的模拟研究

被引量 : 10次 | 上传用户:xst191217
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
背景有关logistic回归的样本量估计目前尚无实用的理论方法,实践中更多的是基于经验方法,即所谓应变量(结局变量)事件数(EPV, events per variable)方法,即应变量发生的事件数(阳性事件数和阴性事件数的最小值)需不少于模型中纳入的自变量个数乘以的倍数。目前已经开展的EPV方法的研究较多,如Harrell (1984), Concato (1995), Peduzzi (1995), Vittinghoff等(2006),通过模拟研究得出,采用基于最大似然估计(MLE, maximum likelihood estimate)的Wald方法时,EPV不小于5,10,甚至20等,才可保证回归分析结果稳健;杨晓妍(2005)的研究认为EPV应不小于10。然而,有关自变量的事件数(EIV, events of independent variable),即纳入模型的某一二分类自变量发生事件的个数(二分类中个数较小的那类),对模型的影响却鲜有研究,而此问题恰恰也是实际数据中经常会遇到的问题。如果EIV太小会导致logistic回归模型的估计失准或不稳定,可认为仅仅依靠EPV方法确定样本量是不够的,还需要结合EIV一起来确定样本量。为此,本研究将通过模拟研究探讨EIV对模型的影响,进而得到EIV界值的确定策略,为logistic回归的样本量估计提供更完善的经验方法。目的本研究采用Monte Carlo技术从EIV的角度探讨logistic回归模型的稳定性,并建立确定EIV界值的方法。方法Logistic回归分析最常用的参数估计方法是MLE,还有罚分似然估计(PLE,penalized likelihood estimate)、精确logistic回归、稀有事件logistic回归等。PLE最早被提出用于解决最大似然估计收敛但至少有一个参数估计发散至正/负无穷的问题,主要发生在EIV与非事件数不平衡和高风险因素情况下,该方法校正了MLE的偏倚,具有较好的性能,效果优于精确logistic回归和最大似然估计,但在实际应用中较少。稀有事件logistic回归原理是校正应变量发生事件的概率,从而保证回归结果的稳健性,且从杨晓妍模拟结果来看,该方法对模型结果改善较小。最常用的估计logistic回归系数的置信区间和假设检验方法是Wald方法,但轮廓似然方法(profile likelihood method)较Wald方法和Bootstrap方法更为稳健,能严格控制一类错误率,且检验效能优于Wald方法。因此,本研究分别选取MLE和PLE进行参数估计,选取Wald方法和轮廓似然方法估计回归系数的置信区间及假设检验。本研究采用Monte Carlo技术进行模拟研究,所有模拟及计算均通过R3.1.2软件实现。首先,模拟产生logistic回归的自变量(Ⅳ,independent variable)与应变量,6类模拟参数的设置为:自变量个数(1,4,8)、回归系数绝对值(0,1,2)、样本量(50,70,80,90,100,200,300,400,500)、EIV(1,2,3,4,5,7,10,12,14,16,18,20,25,35,45,50,60,70,80,90,100,150,200,250)、自变量间的相关性(0,0.5,0.8)、自变量事件发生率(5%,10%,15%,30%,50%)。参数设置非完全组合,其中,EIV最多为样本量的一半,且MLE下EIV最小为5;1个自变量模型不涉及相关性;仅在8个自变量模型中,设置自变量事件发生率。应变量则通过概率抽样获得,概率由人为设定的声和模拟自变量计算得到。每种参数组合下模拟10000次。其次,分别采用MLE和PLE对模拟数据进行参数估计,采用Wald方法和轮廓似然方法进行假设检验及置信区间估计。最后,以一类错误(Type I Error)、均方根误差(MSE, mean square error)、准确性(Accuracy)、精确性(Precision)和置信区间覆盖率(CI Coverage)等五个指标评价统计性能,由参数收敛的回归结果与开始设定值比较获得,从而探究EIV对模型结果的影响。当指标值达到期望值或达到相对稳定状态时对应的EIV即为EIV界值。结果EIV对logistic回归结果具有规律性影响,而自变量事件率的影响需结合样本量共同发挥作用。表1,给出不同方法和五个评价指标下,EIV的具体选择策略。基于MLE的Wald方法和基于PLE的轮廓似然方法,均可以较好地控制-类错误率,但是后者明显优于前者。基于MLE的Wald方法需要EIV达到20以上,一类错误率可以稳定保持在4%到6%之间;而基于PLE的轮廓似然方法需要EIV达到12以上,一类错误率可以稳定保持在5%附近。而基于MLE的轮廓似然方法需EIV达到12以上,但样本量要达到200以上,一类错误率可以稳定保持在5%附近;基于PLE的Wald方法需EIV达到45以上,且样本量也需达到200以上,一类错误率可稳定保持在5%附近。第二步为量化危险因素的强度,即参数估计的精准性方面。采用MLE方法时,EIV需分别达到18、12、16以获得稳定的均方根误差、准确性和精确性;而采用PLE方法时,EIV需分别达到12、12、7。最后为置信区间覆盖率方面,基于MLE的Wald方法和基于PLE的轮廓方法,可以将覆盖率较好控制在预期范围内,稳定控制在95%附近,但后者明显优于前者。基于MLE的Wald方法需要EIV达到30以上;而基于PLE的轮廓方法需要EIV达到14以上。而另外两种情况,基于MLE的轮廓似然方法受其他因素影响较大,很多情况不能达到预期值;而基于PLE的Wald方法EIV达到45以上,且样本量也需达到200以上。此外,自变量个数、回归系数绝对值、样本量及相关性对EIV界值存在一定影响,但在影响方向和强度上略微不同。结论在实际应用logistic回归模型时,应结合EPV和EIV一起确定样本量。就EIV而言,应不小于12。当EIV在12→20之间,可采用基于PLE的轮廓似然方法,以较好地控制一类错误并获得精准的参数估计;当EIV大于等于20时,基于PLE的轮廓似然方法和基于最大似然的Wald方法均可使用。进一步,当EIV在14→30之间,可采用基于PLE的轮廓似然方法,以较好地控制置信区间覆盖率;当EIV大于等于30时,基于PLE的轮廓似然方法和基于最大似然的Wald方法均可使用。以上两种方法在推荐的EIV情况下均可使用,优先推荐基于PLE的轮廓似然方法。在EIV较小又无法扩大样本量的情况下,logistic回归模型中可考虑剔除该自变量,以避免产生偏倚结果。
其他文献
本论文所研究的“提高GPS定位精度的改进卡尔曼滤波算法研究”这一课题是国防基础科研项目“低成本磁阻传感器/GPS组合导航技术研究”的一个组成部分。 文章首先,详细介绍了
关于主体性教育课题研究的重要性已经为越来越多的有识之士认识到,但是从总体上来看,仍处于起步阶段,没有形成一个将理论与实践紧密结合起来的系统研究,可供研究的空间还很大,因此
证据展示(discovery或diclosure)是当事人主义诉讼程序中一个十分重要的概念和制度,是当事人主义发展到一定阶段的产物。十九世纪早期,受传统的“竞技司法理论”的长期支配,当事
制度是约束人们行为的规则,其实质是对人们利益的界定和分配。制度创新就是旧制度被新制度所替代,即人们利益关系的调整或重新界定。地方政府制度创新就是地方政府为协调本辖区
20世纪的西方现代艺术,对如今设计师的指导意义在哪里?其意义不在于现今少数人仍在玩耍当年那些引领潮流、开风气之先的形式、技巧,而在于现代艺术作为一种曾经关注艺术形式、
在工业过程控制中,PID控制算法以其鲁棒性较好、易于实现和被工程技术人员熟悉掌握等特点,至今仍被工业过程控制界所广泛采用,即使目前被广泛引进和使用的计算机分散控制系统也
对"新派"评剧演员在舞台上道白和演唱中频繁出现的词尾"儿"进行分析,发现其中出现的38个韵母(除[r]、[yε]、[yn]、[uη]、[yη])都可以儿化,形成了11组26个儿化韵。这些韵
现代企业的资本不仅仅是资金、厂房、设备等物质资本,还包括人的经营管理、技术创新才能等人力资本,人才是企业制胜的关键因素。如何通过分配制度安排对人力资本进行有效的激励
Asp.terreusNo.201为出发菌株,以紫外线、亚硝基胍、高温、硫酸二乙酯为诱变剂单独处理及紫外线和氯化锂复合处理,采用随机筛选和定向筛选相结合的方法,获得一支衣康酸高产突变株A
传统堡寨聚落是融居住与防御为一体的,将土、木、石等原生材料垒砌成坚固外围护结构的人群聚居之地。本文通过对晋陕和闽赣地区传统堡寨聚落形成演变过程的分析,深刻剖析其形成