论文部分内容阅读
Logistic程序适用于因变量为二分类和有序变量的Logistic模型的回归分析,提供广泛的模型建立方法和计算各式的诊断统计值。GENMOD程序执行广义线性模型的回归分析,特别适合响应分散结局变量的分析,执行Logistic回归模型和Poisson回归模型以及重复测量数据的广义评估方程的分析。
目的:
本文通过模拟不同患病率的二项分布数据,采用SAS软件的Logistic、GENMOD程序进行分析,比较Logistic、Poisson、Log-binomial回归在不同率时的拟合效能,并结合实例验证。
方法:
本研究根据反设事实的实验方法设定对照组(非暴露组)发病率及相对危险度来模拟暴露与非暴露的不同结局。假设研究样本量为200、500、1000,它们进入暴露组与非暴露组的概率均为50%。同时模拟一个分层因素,分为S1、S2两层,暴露组进入S1层的概率是60%,那么非暴露组进入该层的概率为40%,剩余的个体进入S2层。对这个既定的方案采用SAS软件的Logistic实现Logistic回归模型,GENMOD过程实现Poisson回归模型和Log-binomial回归模型,比较Logistic、Poisson、Log-binomial回归在不同率时的拟合效能,并比较同一方法在其他条件一定的情况下,样本量的不同引起的效能改变。
结果:
1.当对照组(非暴露组)发病率等于5%,样本量为200时,Logistic回归分析RR=1时0.1/0.1(S1层暴露/非暴露发病率,下同)对应的OR=1(0.34,2.94),0.2/0.2对应的OR=1(0.42,2.41);RR=2时,0.2/0.1对应的OR=2.20(0.85,5.70),0.4/0.2对应的OR=2.51(1.13,5.57);RR=3时,0.3/0.1对应的OR=3.65(1.47,9.06),0.6/0.2对应的OR=5.12(2.33,11.23)。Log-binomial模型和Poisson回归模型在三种情况下估计值均与设定值相同,但RR相同时随率的增高精度增加。
2.当对照组(非暴露组)发病率为0.5%时,Logistic回归模型在RR=2时0.02/0.01对应的OR=2.02,0.04/0.02对应的OR=2.04;RR=3时,0.03/0.01对应的OR=3.05,0.06/0.02对应的OR=3.10,与对照组发病率等于5%时比较,所得OR值更接近于设定的RR值。Log-binomial模型和Poisson回归模型在三种情况下估计值均与设定值相同。与对照组发病率等于5%时比较,这三种回归方法估计RR置信区间的精度均下降。
3.当RR=1时,对照组发病率极低时,三种模型参数估计的置信区间跨度较大,如n=500,0.001/0.001对应OR置信区间(0.00,287.37),Log-binomial模型的RR(0.00,285.74),Poisson模型的RR(0.00,286.55)。随着对照组发病率的增高,三种模型的参数估计的置信区间跨度逐渐缩小,即精度升高。同时,随着样本含量的增大,三种模型在相同发病率时参数估计的置信区间跨度逐渐缩小即精度升高。
结论:
对照组(非暴露组)发病率、样本量、RR值等是影响多因素回归分析模型结果的因素。增加样本量能够提高回归模型的参数估计精度,但对其准确性没有影响。RR值越大回归模型估计的准确性越差,估计的精度也下降。发病率的大小不仅影响到Logistic回归模型估计的准确性也影响其精度。