论文部分内容阅读
设计效应是抽样调查中的一个重要指标,是复杂抽样设计中确定样本量的关键。对设计效应的研究存在“基于设计”和“基于模型”两种模式。在基于设计的模式下,总体单元是固定的,样本的随机性来源于样本的随机抽取,设计效应要通过基于设计的方差估计来得到,而在复杂抽样设计下往往无法得到方差的简洁表达,也就无法得到设计效应的计算公式,只能通过重抽样方法(刀切法、自助法等)或泰勒线性化方法得到设计效应的计算结果;在基于模型的模式下,总体被认为是超总体模型的一次具体实现,也具有随机性,设计效应可以由基于超总体模型的方差估计得到,而对于各种抽样设计包括复杂抽样设计,只要得到对应的超总体模型,就能得到方差的简洁表达,也就能得到设计效应的计算公式,而公式的正确性又可通过仿真来验证。基于超总体模型的设计效应研究日益受到国外研究者的重视,但目前国内研究较少。本文首先进行了一些基本的梳理和辨析工作,主要包括:一是通过公式推导和仿真模拟相结合的方法,系统梳理了设计效应的影响因素,明确调查变量、估计量、抽样方法和样本量均可对设计效应造成显著影响;二是对基于设计的设计效应测算进行梳理分析,一方面梳理了基于设计的设计效应基本测算方法,另一方面研究了用复杂抽样的样本估计简单随机抽样下估计量方差的问题,通过仿真对比研究了方差的简单估计和无偏估计,发现文献所给的无偏估计相对于简单估计来说并不存在明显优势,却增加了估计的难度和计算量;三是提出了基于设计的设计效应测算框架,并提出当简单估计不存在时,可采用原始刀切法来估计简单随机抽样下估计量的方差,最后还进行了仿真验证。本文的核心工作:一是丰富发展了抽样方法对应的超总体模型,基于随机效应模型提出了分层、多阶段、不等概率等抽样因素单独存在或同时存在时对应的一系列超总体模型;二是基于所给模型推导出分层、类集、加权单因素设计效应的计算公式和二因素、三因素同时存在时的组合设计效应计算公式,公式表明多因素同时存在的组合设计效应等于对应单因素设计效应的乘积,进一步还通过抽样模拟仿真验证了公式的有效性。所推导出的计算公式,一方面与Kish等人所给传统公式吻合,另一方面,内容也比传统公式更加丰富。通过这些公式,本文实现了对设计效应的分解,也使得对设计效应的内部结构和规律的认识更加深入。本文还基于超总体模型,研究了一些特定情形下设计效应的计算问题。具体来说,一是针对极致的分层和加权同时存在的情况下设计效应计算公式低估真实设计效应的问题,给出了修正因子表达式,并通过大量仿真得到了修正因子的简洁的近似表达;二是针对权与调查变量相关的情况下,设计效应计算公式失效的问题,采用非线性函数泰勒展开的思路,基于超总体模型推导得出了权与调查变量相关情况下设计效应的计算公式,并进行了仿真验证;三是针对类集效应计算公式在三阶段抽样下无法使用的问题,基于超总体模型推导得出了与传统公式形式一致但更具一般性的类集效应计算公式,同样也进行了仿真验证;四是基于超总体模型研究了多层估计情况下,各域或层对应的设计效应和总体对应的设计效应之间的关系,给出了关系表达式,并进行了仿真验证。最后,本文还探讨了所推导出的设计效应的一系列计算公式的估计和应用问题。一方面,探讨了仅有抽样设计和样本信息的情况下设计效应计算公式中参数的估计问题,梳理给出了每个公式的估计方法,并对自己所提出的估计方法进行了仿真验证;另一方面,基于湖北省武汉“1+8”城市圈育龄妇女信息数据库,以其中潜江市育龄妇女为总体,进行了多种抽样设计,并计算了对应的设计效应,从而对实际总体下估计量的设计效应有了直观的认识。最后,还提出了在实际抽样中减小设计效应的具体意见建议。本文的创新之处在于:第一,丰富发展了抽样方法对应的超总体模型。本文在文献所给的简单随机抽样和二阶段抽样对应的超总体模型的基础上,提出了超总体模型的设计思路,并依据思路设计出分层、多阶段、不等概率等抽样因素单独存在或同时存在时对应的一系列的超总体模型。第二,初步建立起基于超总体模型的设计效应测算体系。基于超总体模型,不但推导出分层、类集、加权单因素设计效应和多因素同时存在时组合设计效应的计算公式和估计公式,并且推导出权与变量相关时的加权效应、三阶段抽样下的类集效应的计算公式和估计公式,以及多层估计时设计效应的合成公式和估计公式。这些公式初步构成了基于超总体模型的设计效应测算体系。第三,发现并初步解决了一些设计效应相关问题。比如,发现极致分层和加权同时存在时设计效应的低估问题,并通过设计修正因子初步解决了该问题;再比如,针对类集效应计算公式在三阶段抽样下不适用的问题,给出了三阶段抽样下类集效应的计算公式;又比如,针对分层抽样下各层对应设计效应和总体对应设计效应之间关系问题,给出了简洁的关系表达式。