论文部分内容阅读
删失数据是指在某种情况下,样本值不能被完全观测到的不完整的数据。它的出现使得数据处理和分析变得复杂。如何选择合适的方法对不完整数据集进行分析始终是数据处理的难题。一种最简易的处理方式就是将删失数据直接剔除,但该方法容易对结果造成较大的偏差。随着对删失数据研究的深入,多重插补法应运而生。Rubin(1977)系统归纳了多重插补法的思想及理论框架,通过模拟的思想实现了不完整数据的多重插补,避免了直接剔除数据造成的信息损失。此外,学术界存在的删失数据研究成果很多都是关于响应变量删失问题的,对协变量删失问题的研究仍处在初级阶段。本文基于国内外相关文献,拟在分位数回归技术和经验似然推断方法的基础上,对协变量中存在的删失数据进行多重插补,并对模型参数进行经验似然推断。首先,基于分位数回归方法估计删失协变量的条件密度,并运用多重插补方法,对协变量中存在的删失数据进行多次填补。随后,在插补后的完整数据集上构造了模型参数的经验似然比统计量,并估计了参数的经验似然置信域。最后,本文对所提出的多重插补方法(IEL)与直接删除删失数据方法(CEL)得到的结果进行对比分析。本文的主要结构如下:前两章主要概述研究背景及国内外研究现状,并对删失分位数回归、多重插补和经验似然等方法进行详细的理论介绍。第三章详细介绍本文所提出来的基于分位数回归的多重插补方法,并探讨了如何构造相应的经验似然置信域。基于以上方法的论述,本文针对同方差和异方差两种线性模型进行了蒙特卡洛模拟研究。运用多重插补方法填补删失数据,并将所得的经验似然平均置信区间长度与直接将删失数据剔除方法得到的平均区间长度进行比较。最后,本文将提出的多重插补方法运用于2007-2008年美国健康和营养数据中,研究C反应蛋白对血压的影响。模拟和实证结果表明,本文所提出的多重插补方法(IEL)比直接将删失数据删除方法(CEL)有更小的标准误差和更短的平均置信区间。因此,相对于传统的删失数据处理方法来说,本文所提出的多重插补方法是有效且可行的。