论文部分内容阅读
在抽样调查中,参数估计是非常重要的环节之一,参数估计效果的好坏,直接影响着整个调查的质量。实际的抽样调查数据中往往存在着异常值,异常值会对传统的估计方法造成很大的影响,使估计结果变得很不稳定,从而导致整体的估计效果变差。对于调查数据中的异常值,有些并不是由于记录错误等人为原因产生的,而是数据自身特点的客观表现。这种异常值往往包含着重要的系统信息,在估计时不能简单的将其删除。因此需要寻找一种新的统计推断方法,在使用这种统计方法进行推断时,异常值不至于对总体推断产生过大的影响。这种方法就是稳健统计方法。 稳健估计的基本原理是,在估计的时候,对异常值赋予较小的权重,使其对估计结果的影响变小,从而提高估计的稳定性。然而,稳健估计会导致一些样本信息的损失,使估计结果的偏差变大。综合考虑偏差和方差两个方面,传统的估计方法和稳健估计方法孰优孰劣,就成为一个需要研究的问题。 本文首先通过模拟方法,比较了在不同总体分布、不同异常值类型、不同异常值比例、辅助变量和目标变量不同相关程度、不同抽样方法等15种情况下各种估计方法的估计效果,然后结合我国贸易信贷调查项目进行了相关的实证研究。 本文的主要结论如下: (1)当总体服从偏态分布时,稳健估计的估计效果不如传统估计量,但随着偏度的增大,相对于传统估计方法而言,稳健估计的估计效果有变好的趋势。 (2)在总体分布为正态分布、样本中异常值比例为2%的条件下,无论异常值为代表性异常还是非代表性异常,从整体估计效果来看,稳健估计量都要比传统估计量更具优势;对于非代表性异常来说,这种优势更加明显。 (3)在总体分布为正态分布、样本中异常值为代表性异常时,随着样本中异常值比例的增大,稳健估计量相对于传统估计量的优势越来越明显。 (4)当总体的主体分布为正态分布、样本中异常值为代表性异常、异常值比例为1%时,随着目标变量和辅助变量相关程度的增大,稳健估计相对于传统估计的优势越来越明显;由于比估计的RMSE随着相关程度加大而减小的很快,因此在相关程度为0.8的情况下,稳健估计的效果不及传统的比估计。 (5)当总体的主体分布为正态分布、异常值为代表性异常、异常值比例为1%、目标变量和辅助变量相关系数为0.8时,采用层数为六的分层随机抽样,并使用分层比估计量时的RMSE最小;当采用PPS方法时,稳健回归估计能够表现出明显的优势。 (6)不同的稳健估计方法其效果也是不同的,综合来看,Hampel估计要比Huber估计效果更好,但即使对于Hampel估计来说,选择不同的细调参数,估计效果也会不同。 (7)对于贸易信贷调查项目,虽然辅助变量和目标变量的相关程度较低,但借助辅助变量进行分析,得到的结果仍然比不借助辅助变量时要好;在借助辅助变量进行估计时,使用PPS方法,同时使用Hampel M估计量所得到的结果是最好的。