缺失值处理统计方法的模拟比较研究及应用

论文部分内容阅读

目的通过数据模拟技术比较MI和其它缺失值填补方法的优劣,探讨各自的适用性。将适用于本研究资料的填补方法应用于缺失值填补,为进一步的数据分析及相关因素研究奠定基础。方法横断面资料单调缺失模式连续变量的处理:采用Ad hoc法和条件均数填补法(conditional mean imputation)进行处理,并采用MI中的趋势得分法(propensity score,PS)和预测均数匹配法(predictive mean matching,PMM)进行填补并做比较。横断面资料单调缺失模式分类变量的处理:采用Ad hoc法和MI中的logistic回归方法进行处理并做比较。横断面资料任意缺失模式连续变量的处理:采用Ad hoc方法处理并与MI中的马尔可夫链蒙特卡罗(Markov Chain Monte Carlo,MCMC)方法填补结果进行比较。纵向资料缺失数据的处理:采用Ad hoc方法、LOCF法处理并与MI方法中的MCMC模型填补结果进行比较。最后,采用MI中的MCMC模型进行了实例应用。结果当数据缺失率低于10%时,用Ad hoc方法即可处理;横断面单调缺失数据缺失率低于20%时,条件均数填补法结果较优;纵向数据缺失率低于20%时,LOCF填补结果较优;当数据缺失超过20%时,MI填补效果较优;其中,当分类变量缺失率超过40%时MI填补无效;对于横断面连续变量,缺失率不超过60%时,MI结果较优;而对于纵向资料连续变量的处理,MI的优势范围相对狭窄,缺失率在20%～40%。不管是横断面资料还是纵向

与本文相关的学术论文