论文部分内容阅读
在医疗研究中,研究人员利用病人的医疗记录经常会遇到一些数据缺失问题。这些缺失的数据中蕴含着对医疗诊断和研究有很大价值的信息,那么如何处理医疗数据的缺失问题就成为一项重要的研究课题。在现实环境中,产生数据缺失的原因有很多。不同的背景下,采用不同缺失数据处理方法对统计分析工作有很重要的影响。传统的处理方法是直接删除含有缺失数据的医疗记录,或默认值处理,或完全不处理,得到的分析结果往往不是很满意。针对不同的缺失数据问题,Little和Rubin定义了以下三种不同的数据缺失机制:完全随机缺失(missing completely at random, MCAR);随机缺失(missing at random, MAR),及信息缺失(information missing, IM)。本文主要目的是研究信息缺失(IM)机制下的医疗数据缺失问题。通过马尔科夫随机数据模拟来探讨三种贝叶斯模型处理缺失数据的方法,即先赋予含缺失数据的变量一个简单的先验分布,再进行缺失数据填补的方法。不失一般性,同时探讨两种多变量结构的logistic回归模型的数据填补方法。最后作为对比,检验完全观测数据分析模型和对条件的缺失进行缺失数据处理模型的数据填补情况。结果表明每一种方法的偏差和均方误差与变量的缺失率及缺失机制有关,且没有任何一种方法有很好的填补效果。但是,假设先赋予缺失变量一个简单的先验分布,且分布参数服从一致的先验分布,在大多数情况下都可以相对降低偏差,对于医疗研究有非常重要的意义。最后,以分析影响心脏病患者死亡率的危险因素做一个实证分析。