论文部分内容阅读
研究背景:在生物医学及社会学等各种领域,纵向研究是探索与解释某事物发展过程的一种十分常见的研究方法。由于纵向研究是在一段时间内对研究对象进行重复地调查,因此可以观察到研究对象在时间轴上所产生的变化。然而纵向研究经常遇到研究对象脱落、缺乏随访等现象,因此不可避免地遇到缺失数据问题。常见的用于处理缺失数据的方法有完整病例分析法、末次观测值结转法,这些方法的优势是简单易实施,然而这些方法都要求严格的完全随机缺失假设。在实际情况中,完全随机缺失通常很难满足,因此这些方法所得到的结果是有偏的。多重填补是一类十分常见的用于处理缺失数据的方法,能够在随机缺失机制下得到有效的估计。虽然目前已有许多可用于处理纵向二分类资料缺失数据的多重填补方法,但却鲜有研究对这些方法的性质表现进行评估。研究目的:由于常用的纵向二分类资料缺失数据处理方法在缺失机制为随机缺失下得到的估计是有偏的,而多重填补方法在随机缺失下可以得到有效估计,本研究通过广泛的模拟研究来对比常用的纵向二分类资料缺失数据处理方法以及七种多重填补方法的表现,以期为纵向二分类资料缺失数据的处理方法选择提供参考。研究方法:本研究包括模拟研究以及实例应用两部分。研究模拟了缺失机制为随机缺失和完全随机缺失两种情形,同时在每种情形下又根据个体观测间相关系数的大小以及样本量大小分别模拟不同的情境。在每个情境下,利用九种分析方法对单组率、两组间的率差进行估计,从偏倚、标准误、均方误差、检验效能四个方面评价九种分析方法的处理效果。在实例部分,将研究方法应用于一个多中心、随机、双盲、平行组对比两组口服药治疗趾甲真菌病的临床试验,同时采用临界点分析法进行敏感性分析。研究结果:模拟研究结果显示,当缺失机制为随机缺失时,完整病例分析法(Complete case analysis)和末次观测值结转法(Last observation carried forward,LOCF)的估计结果是有偏的,而多重填补方法则可以减小偏倚。在多重填补方法中,基于倾向性评分的多重填补法(Propensity score-based multiple imputation,PS-MI)、应用Logistic回归的单调方法(Monotone method with logistic regression,MONO-L)、应用Logistic回归的全条件指定法(Full conditional specification with logistic regression,FCS-L)、应用自适应取整的马尔科夫链蒙特卡洛法(Markov chain Monte Carlo with adaptive rounding,MCMC-A)控制偏倚相对较好,而应用随机的马尔科夫链蒙特卡洛法(Markov chain Monte Carlo with coin flipping,MCMC-C)、应用判别函数的单调方法(Monotone method with discriminant function,MONOD)、应用判别函数的全条件指定法(Full conditional specification with discriminant function,FCS-D)产生的偏倚相对较大。同时,多重填补方法的标准误也小于完整病例分析法。在多重填补方法中,MCMC-A的标准误最小,尤其是当样本量小的时候。在综合考虑了偏倚和标准误的MSE上,多重填补方法的表现也好于完整病例分析法和LOCF。从检验效能上看,多重填补方法在大部分情境下也好于完整病例分析法,特别是MCMC-A。当缺失机制为MCAR时,LOCF依然产生较大的偏倚,而完整病例分析法的偏倚则较小,多重填补方法相较于完整病例分析法,在控制偏倚上并没有优势,除了PS-MI,其他多重填补方法甚至会加大偏倚,但是多重填补方法能够减小标准误。在综合考虑了偏倚和标准误的均方误差(Mean square error,MSE)上,多重填补方法的表现依然好于完整病例分析法。从检验效能上看,多重填补方法在大部分情境下也好于完整病例分析法,特别是MCMC-A。研究结论:在分析纵向二分类资料缺失数据时,不应该盲目地应用完整病例分析法或末次观测值结转法,这会导致在缺失机制为随机缺失时,产生的结果是有偏的。根据研究结果,更加推荐使用多重填补方法,在缺失机制为随机缺失时,多重填补方法能够减小偏倚,在缺失机制为完全随机缺失时,多重填补方法则可以减小标准误。