论文部分内容阅读
缺失数据的处理是抽样推断中无法回避的难题,作为一种能够有效地处理缺失数据的方法,多重插补的问世具有相当重要的意义。目前在国内有关多重插补方法研究比较少,本论文在借鉴国外相关科研成果的基础上,结合国内调查实例,讨论抽样调查中缺失数据多重插补处理的实现过程。 由于缺失数据涉及范围很广泛,从来源看,既包括实验中的缺失数据,也包括调查中的缺失数据,由于实验受人为因素影响很小,其中的缺失数据处理相对要简单一些,而调查受人的因素影响很大,处理比较复杂,因此,本文主要着眼于调查中出现的缺失数据。根据论题研究的特点,论文的研究主要按照以下几个部分展开。 1.多重插补方法基本问题的研究 借鉴国内外缺失数据处理的研究成果,论文首先对缺失数据处理中涉及的一些基本问题进行详细地讨论,如缺失数据的概念、分类、产生机制和缺失模式,探讨了各类缺失数据出现的原因,给出缺失数据产生机制的识别原则。其次对多重插补方法的基本问题进行了分析,就该方法的理论基础和前提假设作了全面概括,讨论了可忽略机制下多重插补的一般原理,对多重插补模型作了介绍,并分析了多变量单调缺失下的多重插补方法。 2.复杂情况下多重插补方法的研究 由于实际调查数据往往与多重插补方法的原始假定相去甚远,因此,非常有必要对复杂情况下多重插补方法进行讨论,论文对不可忽略机制下缺失数据多重插补处理进行了详细地讨论,介绍了不可忽略机制下缺失数据多重插补的一般原理,并对有后续行动的不可忽略的无回答进行了探讨,同时讨论了可忽略无回答的分层随机抽样下的多重插补方法,并探讨了任意缺失模式下多重插补方法以及多重插补方法的算法实现。 3.一种常用多重插补方法的改进研究 论文提出了基于多变量事后分层基础上缺失数据多重插补方法,这种方法的基本思想是先构建类,然后在进行插补,就本质而言,此方法是类内多重随机插补,只是采用多元聚类分析构建类。论文就该方法的实际操作过程,如分层方法的选择、样本在各层的分配、插补模型的选择及多重插补参数估计等问题进行了详细讨论,并通过具体算例加以说明。 4.多重插补方法的效率研究 关于缺失数据的处理问题始终是调查领域中的难点之一,国内外的学者就此提出各种各样的解决思路,从传统的忽略不计到今天采用复杂的统计计算加以处理,该领域的研究始终没有停歇。论文就其中一些主要方法,如忽略不完全观测值,直接估计、基于插补的技术以及基于模型的方法进行了分析,探讨了缺失数据处理方法的评价标准,并对各种缺失数据处理方法进行了比较,给出各种方法的适用范围,同时进行了多重插补处理方法的效率研究,在比较分析各种方法的基础上,给出采用相关方法处理缺失数据的一个例子。 5.多重插补方法的实证分析 随着计算机技术的发展,多重插补的思想也不断的被设计成相应的程序,或者独立运行,或者包括在大型软件中。处理多重插补的程序不同,相应的算法也会有所差异。论文对多重插补处理的相关软件进行了比较分析,主要集中于该领域比较有影响的软件如Schafer的S-PLUS软件、SAS、SOLA.S、S-PLUS、MICE等,在此基础上,运用多重插补处理方法,主要是DA算法,利用NORM、SPSS、EXCEL等统计软件对某度假村度假调查数据进行了实证分析。 论文在国内首次系统而深入地研究了多重插补方法,这一选题具有重要的理论价值和实践意义,是国内缺失数据处理方面的新探索。具体说来,论文的创新之处主要集中在以下几个方面: (1)论文提出了基于多变量事后分层基础上缺失数据的多重插补处理方法,这种方法的基本思想是先构建类,然后再类内进行插补,其优点在于,一方面能够实现缺失数据的多重插补处理,另一方面能够提高估计精度。论文就该方法的实际操作过程,如分层方法的选择、样本在各层的分配、插补模型的选择及多重插补参数估计等问题进行了详细讨论,并通过具体算例加以说明。 (2)综合分析比较各种缺失数据处理方法,讨论了缺失数据处理方法的评价标准,特别讨论了插补处理方法的特点,通过具体例子说明各种方法的实现过程,给出各种方法的适用范围,并探讨了多重插补的效率问题。 (3)由于多重插补实现过程比较复杂,因此,关于多重插补软件的研究也是十分重要和必要的,论文对于国际上具有多重插补处理功能的软件进行了详细介绍。在此基础上,针对实际调查中最常见的品质数据,综合运用NORM软件、SPSS软件和EXCEL软件进行了缺失数据的多重插补,并对结果进行了合并分析。 在论文中,笔者对多重插补的一些重要问题阐述了自己的看法和评价,这些观点对于进一步的研究可能会有一定的参考价值,同时也希望本研究能对该方法在国内的推广起一些积极作用。