论文部分内容阅读
我们知道,在抽样调查中并不总能获得感兴趣特征y的精确值,测量误差常常存在。而坚持对大量样本单位获得精确测量值将耗资巨大。因此,常代之以两个或多个在精度和费用上明显不同的“仪器”进行测量。具有最小测量误差的“仪器”常称为“精确的”。当然,“精确的”这个概念是相对的,是为了实际需要。假设我们用几种不精确的和一精确的仪器独立地测量了一总体的某一特征,这样我们得到了几个具有不同精度的样本集。此时统计推断应基于它们组成的合并样本集,因为仅利用精确测量值将导致效率损失。
在有限总体推断问题中,附带信息常可利用。例如,假设有限总体由N个不同的单位组成,对应第i个单位的是研究变量yi,和辅助向量xi。在许多应用中,辅助向量xi的某些特征(如,总体均值X=1-N∑i-1xi或者总体中位数mx)是已知的。在某些情况下,所有x1,x2,…,xN都已知,即有完全辅助信息。另外,我们也可能有关于研究变量的部分信息。例如,我们可能已知研究变量总体均值,或者已知研究变量分布函数关于某常数对称。一个有趣的问题是,如何才能最有效地利用这些信息?
经验似然是一非参统计推断方法。正如自助法(bootstrap)和刀切法(jackknife),经验似然方法也不需要像参数似然方法那样假定数据来自某指定的分布族。经验似然还可自动确定置信区域的形状,并可直接结合由约束或先验分布表示的附带信息。经验似然法可看作是不需重抽样的自助法,又可看作不需参数假设的似然法。
尽管Owen(1988)最初提出的经验似然方法是关于独立同分布数据的,但它已扎根于抽样调查中(HartleyandRao(1968))。在简单随机抽样下,HartleyandRao(1968),ChenandQin(1993)发现经验似然方法可有效地利用抽样调查中广泛存在的辅助信息,并具有许多吸引人的特征。最近,ZhongandRao(2000)研究了在分层简单随机抽样下的经验似然法。在复杂抽样下,ChenandSitter(1999)提出了拟经验似然方法。所有这些方法仅在样本被精确测量的范畴内讨论。Zhong,ChenandRao(2000)将经验似然法用于在有测量误差情形下感兴趣参数的推断。然而,他们的讨论仅局限在简单随机抽样下的点估计问题。因此,当存在测量误差时,对感兴趣参数在简单随机抽样下的检验问题及分层随机抽样下的统计推断值得感兴趣。
在1.1节中,我们考虑在有测量误差情况下感兴趣参数的检验问题。这里假设所有不精确的仪器没有系统误差。利用经验似然方法,我们可结合所有可用的信息对感兴趣参数进行统计检验。我们定义了经验似然比统计量,并获得了它们的渐近分布。在1.2节中,在分层随机抽样及存在测量误差情况下,我们采用经验似然方法去推断感兴趣参数。我们指出,经验似然方法充分地结合了所有样本信息,且导出的估计量是渐近正态的。我们也定义了经验似然检验统计量并获得了它们的渐近分布。特别地,我们应用经验似然方法去得到总体均值的点估计及置信区间。利用合样本所得到的估计量在效率上比仅用精确测量数据得到的估计量有明显的提高。
Owen(1988)指出,经验似然方法可用来构造M-泛函的置信区间。在关于M-泛函的经验似然范畴内,他证明了非参情形下的Wilks定理,即对数经验似然比的渐近分布是卡方分布。Zhang(1995,1997)考虑了M-泛函的经验似然估计和置信区问.但是,所有这些讨论不包括联系有限总体M-泛函的推断。
在1.3节中,我们考虑在存在辅助信息情况下去估计联系有限总体的M-泛函。特别地,我们考虑了在已知有限总体均值时去估计有限总体方差。通过雇佣经验似然方法,我们提出了关于M-泛函的改进的估计和置信区间,并从理论上论证了它们优于标准的估计和置信区间。为评估改进的估计,我们还进行了模拟。模拟结果与理论上预期的基本一致。
ElBarmi(1996)利用经验似然比方法去检验M-泛函是否满足一组不等式。其结果是QinandLawless(1995)文中结果的推广。这个工作也与ElBarmiandDykstra(1994a,1995)的工作密切相关。然而,他们没有考虑关于分布本身有部分信息的情况。
在1.4节中,我们考虑了在有辅助信息情况下对M-泛函的一约束集进行统计检验的问题。我们定义了经验似然比检验统计量,并获得了它们的渐近分布。
从ChenandQin(1993),ChenandSitter(1999)文中知,他们所定义的经验似然并不是真正的似然,而仅仅是一种近似或在整个有限总体看作来自某超总体iid样本时似然函数的一设计无偏估计。尽管经验似然方法有好的大样本性质,它不能说是最好的方法。在第2章中,我们提出了有效利用调查数据中辅助信息的信息论方法。我们说交叉熵最小化(CEM)估计(或指数型经验似然估计)比经验最大似然(EML)估计更有吸引力。第一,两种估计量都可看作是最小化待估概率πi和经验频率1-n之间的距离而得到的。在CEM方法中用这些概率的有效估计(即πi)作为差异的权似乎比在EML方法中用这些概率的无效估计(即1-n)作为差异的权更有吸引力。第二,相对来说,CEM估计量受数据扰动的影响较小(参看Imbens,SpadyandJohnson(1998))。第三,用经验似然方法,其优化问题在某些情况下可能无解。然而,我们的优化问题的解总存在且唯一。更进一步,我们的方法计算上简单。
在2.1节中,我们提出了适合简单和复杂调查数据的交叉熵最小化方法。在简单无放回随机抽样下所得的CEM估计是一致的且是渐近正态的,与EML估计有相同的渐近方差。在复杂抽样情况下我们所得的CEM估计与PEML估计具有相同的渐近性质。模拟结果显示,CEM估计量一致地好。
在2.2节中,我们提出了有效使用辅助信息和含在层总体大小中的信息的交叉熵最小化方法。我们的方法适用分层简单和复杂抽样。在分层简单随机抽样下,我们证明了CEM估计量的渐近方差不会比其它估计量的渐近方差大。特别地,当X已知,Y的交叉熵最小化估计等价于最优回归估计(Rao(1994))。我们证明了导出的估计比通常的无信息估计有较小的渐近方差。我们也给出了其方差的刀切法估计及其渐近性质。
在2.3节中,我们提出了使用调查数据中完全辅助信息的模型校正交叉熵最小化(MCEM)方法。在估计有限总体均值时我们的估计渐近等价于MC估计(WuandSitter(2001))。我们方法一个有吸引力的优点是,导出的权具有特征:Pi>0和∑i∈spi=1。这便可把此方法容易地用于估计分布函数和分位数。导出的分布函数估计量FMCE(y)渐近等价于广义回归估计,且本身是一分布函数。
DevilleandSarndal(1992)给出了用于估计总体总量的校正方法。这个方法隐含的目的就是利用辅助信息去获得比Horvitz-Thompson(H-T)估计量有较小渐近方差的渐近无偏估计量。当采用加权平方和距离来度量两权集的距离时,通过校正方法所得的估计量为广义回归估计。对一般的距离度量,在一定的正规条件下,导出的校正估计近似于广义回归估计(见DevilleandSarndal(1992))。
在构造校正估计时有两基本的元素:距离度量和校正方程集。从有效性角度来讲,距离度量的选择不是关键的(DevilleandSarndal(1992))。许多调查机构日常使用的校正方程i∈s∑wixi=∑i=1xi被称作水准基点约束。在实践中常加上水准基点约束有如下两点理由:(1)能给辅助变量以完美估计的校正权也可能为研究变量提供一个好的估计;(2)可利用的辅助信息可能是集成的形式,即仅已知XC。然而,在许多抽样调查问题中有完全辅助信息,即x1,x2,…,xN均已知,此时一个自然的问题是,在构造校正估计时最好的校正方程是什么呢?WuandSitter(2001)在估计总体总量和均值时发展了使用调查数据中完全辅助信息的模型校正方法。SitterandWu(2002)指出,当响应变量和辅助变量的真正关系是严重的非线性关系时,为有效地利用辅助信息,在单位水平上的完全辅助信息和精心建模是必要的。但是,他们文中讨论的实际上仅是总体总量或均值。Théberge(1999)推广校正技术去估计总量和均值以外的总体参数,如线性和双线性参数。然而,他没有考虑已知完全辅助信息的情况。在第3章中,在估计线性和双线性参数时,我们提出了利用完全辅助信息的广义模型校正方法。
在3.2节中,把模型校正看作一代数问题,我们推广模型校正方法去估计总体总量和均值以外的总体参数。建议的广义模型校正估计可以处理任何线性或非线性的工作模型,且在线性模型的情形下变为广义回归估计。通过Kronecker积,我们可把模型校正方法用于估计双线性参数,特别地,去估计方差和协方差。
在3.3节中,我们证明了广义模型校正估计在广义校正估计类中是最优的。