调查抽样中的推断方法和渐近理论

来源 :南开大学 | 被引量 : 0次 | 上传用户:hongfengye365
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
我们知道,在抽样调查中并不总能获得感兴趣特征y的精确值,测量误差常常存在。而坚持对大量样本单位获得精确测量值将耗资巨大。因此,常代之以两个或多个在精度和费用上明显不同的“仪器”进行测量。具有最小测量误差的“仪器”常称为“精确的”。当然,“精确的”这个概念是相对的,是为了实际需要。假设我们用几种不精确的和一精确的仪器独立地测量了一总体的某一特征,这样我们得到了几个具有不同精度的样本集。此时统计推断应基于它们组成的合并样本集,因为仅利用精确测量值将导致效率损失。 在有限总体推断问题中,附带信息常可利用。例如,假设有限总体由N个不同的单位组成,对应第i个单位的是研究变量yi,和辅助向量xi。在许多应用中,辅助向量xi的某些特征(如,总体均值X=1-N∑i-1xi或者总体中位数mx)是已知的。在某些情况下,所有x1,x2,…,xN都已知,即有完全辅助信息。另外,我们也可能有关于研究变量的部分信息。例如,我们可能已知研究变量总体均值,或者已知研究变量分布函数关于某常数对称。一个有趣的问题是,如何才能最有效地利用这些信息? 经验似然是一非参统计推断方法。正如自助法(bootstrap)和刀切法(jackknife),经验似然方法也不需要像参数似然方法那样假定数据来自某指定的分布族。经验似然还可自动确定置信区域的形状,并可直接结合由约束或先验分布表示的附带信息。经验似然法可看作是不需重抽样的自助法,又可看作不需参数假设的似然法。 尽管Owen(1988)最初提出的经验似然方法是关于独立同分布数据的,但它已扎根于抽样调查中(HartleyandRao(1968))。在简单随机抽样下,HartleyandRao(1968),ChenandQin(1993)发现经验似然方法可有效地利用抽样调查中广泛存在的辅助信息,并具有许多吸引人的特征。最近,ZhongandRao(2000)研究了在分层简单随机抽样下的经验似然法。在复杂抽样下,ChenandSitter(1999)提出了拟经验似然方法。所有这些方法仅在样本被精确测量的范畴内讨论。Zhong,ChenandRao(2000)将经验似然法用于在有测量误差情形下感兴趣参数的推断。然而,他们的讨论仅局限在简单随机抽样下的点估计问题。因此,当存在测量误差时,对感兴趣参数在简单随机抽样下的检验问题及分层随机抽样下的统计推断值得感兴趣。 在1.1节中,我们考虑在有测量误差情况下感兴趣参数的检验问题。这里假设所有不精确的仪器没有系统误差。利用经验似然方法,我们可结合所有可用的信息对感兴趣参数进行统计检验。我们定义了经验似然比统计量,并获得了它们的渐近分布。在1.2节中,在分层随机抽样及存在测量误差情况下,我们采用经验似然方法去推断感兴趣参数。我们指出,经验似然方法充分地结合了所有样本信息,且导出的估计量是渐近正态的。我们也定义了经验似然检验统计量并获得了它们的渐近分布。特别地,我们应用经验似然方法去得到总体均值的点估计及置信区间。利用合样本所得到的估计量在效率上比仅用精确测量数据得到的估计量有明显的提高。 Owen(1988)指出,经验似然方法可用来构造M-泛函的置信区间。在关于M-泛函的经验似然范畴内,他证明了非参情形下的Wilks定理,即对数经验似然比的渐近分布是卡方分布。Zhang(1995,1997)考虑了M-泛函的经验似然估计和置信区问.但是,所有这些讨论不包括联系有限总体M-泛函的推断。 在1.3节中,我们考虑在存在辅助信息情况下去估计联系有限总体的M-泛函。特别地,我们考虑了在已知有限总体均值时去估计有限总体方差。通过雇佣经验似然方法,我们提出了关于M-泛函的改进的估计和置信区间,并从理论上论证了它们优于标准的估计和置信区间。为评估改进的估计,我们还进行了模拟。模拟结果与理论上预期的基本一致。 ElBarmi(1996)利用经验似然比方法去检验M-泛函是否满足一组不等式。其结果是QinandLawless(1995)文中结果的推广。这个工作也与ElBarmiandDykstra(1994a,1995)的工作密切相关。然而,他们没有考虑关于分布本身有部分信息的情况。 在1.4节中,我们考虑了在有辅助信息情况下对M-泛函的一约束集进行统计检验的问题。我们定义了经验似然比检验统计量,并获得了它们的渐近分布。 从ChenandQin(1993),ChenandSitter(1999)文中知,他们所定义的经验似然并不是真正的似然,而仅仅是一种近似或在整个有限总体看作来自某超总体iid样本时似然函数的一设计无偏估计。尽管经验似然方法有好的大样本性质,它不能说是最好的方法。在第2章中,我们提出了有效利用调查数据中辅助信息的信息论方法。我们说交叉熵最小化(CEM)估计(或指数型经验似然估计)比经验最大似然(EML)估计更有吸引力。第一,两种估计量都可看作是最小化待估概率πi和经验频率1-n之间的距离而得到的。在CEM方法中用这些概率的有效估计(即πi)作为差异的权似乎比在EML方法中用这些概率的无效估计(即1-n)作为差异的权更有吸引力。第二,相对来说,CEM估计量受数据扰动的影响较小(参看Imbens,SpadyandJohnson(1998))。第三,用经验似然方法,其优化问题在某些情况下可能无解。然而,我们的优化问题的解总存在且唯一。更进一步,我们的方法计算上简单。 在2.1节中,我们提出了适合简单和复杂调查数据的交叉熵最小化方法。在简单无放回随机抽样下所得的CEM估计是一致的且是渐近正态的,与EML估计有相同的渐近方差。在复杂抽样情况下我们所得的CEM估计与PEML估计具有相同的渐近性质。模拟结果显示,CEM估计量一致地好。 在2.2节中,我们提出了有效使用辅助信息和含在层总体大小中的信息的交叉熵最小化方法。我们的方法适用分层简单和复杂抽样。在分层简单随机抽样下,我们证明了CEM估计量的渐近方差不会比其它估计量的渐近方差大。特别地,当X已知,Y的交叉熵最小化估计等价于最优回归估计(Rao(1994))。我们证明了导出的估计比通常的无信息估计有较小的渐近方差。我们也给出了其方差的刀切法估计及其渐近性质。 在2.3节中,我们提出了使用调查数据中完全辅助信息的模型校正交叉熵最小化(MCEM)方法。在估计有限总体均值时我们的估计渐近等价于MC估计(WuandSitter(2001))。我们方法一个有吸引力的优点是,导出的权具有特征:Pi>0和∑i∈spi=1。这便可把此方法容易地用于估计分布函数和分位数。导出的分布函数估计量FMCE(y)渐近等价于广义回归估计,且本身是一分布函数。 DevilleandSarndal(1992)给出了用于估计总体总量的校正方法。这个方法隐含的目的就是利用辅助信息去获得比Horvitz-Thompson(H-T)估计量有较小渐近方差的渐近无偏估计量。当采用加权平方和距离来度量两权集的距离时,通过校正方法所得的估计量为广义回归估计。对一般的距离度量,在一定的正规条件下,导出的校正估计近似于广义回归估计(见DevilleandSarndal(1992))。 在构造校正估计时有两基本的元素:距离度量和校正方程集。从有效性角度来讲,距离度量的选择不是关键的(DevilleandSarndal(1992))。许多调查机构日常使用的校正方程i∈s∑wixi=∑i=1xi被称作水准基点约束。在实践中常加上水准基点约束有如下两点理由:(1)能给辅助变量以完美估计的校正权也可能为研究变量提供一个好的估计;(2)可利用的辅助信息可能是集成的形式,即仅已知XC。然而,在许多抽样调查问题中有完全辅助信息,即x1,x2,…,xN均已知,此时一个自然的问题是,在构造校正估计时最好的校正方程是什么呢?WuandSitter(2001)在估计总体总量和均值时发展了使用调查数据中完全辅助信息的模型校正方法。SitterandWu(2002)指出,当响应变量和辅助变量的真正关系是严重的非线性关系时,为有效地利用辅助信息,在单位水平上的完全辅助信息和精心建模是必要的。但是,他们文中讨论的实际上仅是总体总量或均值。Théberge(1999)推广校正技术去估计总量和均值以外的总体参数,如线性和双线性参数。然而,他没有考虑已知完全辅助信息的情况。在第3章中,在估计线性和双线性参数时,我们提出了利用完全辅助信息的广义模型校正方法。 在3.2节中,把模型校正看作一代数问题,我们推广模型校正方法去估计总体总量和均值以外的总体参数。建议的广义模型校正估计可以处理任何线性或非线性的工作模型,且在线性模型的情形下变为广义回归估计。通过Kronecker积,我们可把模型校正方法用于估计双线性参数,特别地,去估计方差和协方差。 在3.3节中,我们证明了广义模型校正估计在广义校正估计类中是最优的。
其他文献
  本文研究时滞微分方程d/dt)-[x,x(t-τ))]+g(t,x(t-δ))+h(t,x(t-σ))=0,t≥t0,(0.1)  d/dt[x(t)-m∑i=1fi(t,x(t-Ti))]+n∑j=1gj(t,x(t-δj))=0,t≥t0,(0.2)  d/dt[x(t)-m∑i
密码加密方案主要分为两类:分组密码和流密码.像DES或AES的分组密码是多轮加密的叠加.而每轮加密都涉及从二元向量空间Vn到向量空间Vm的向量输出布尔函数,这样的布尔函数也称为
根据各种学科发展和应用的需要,Orlicz空间有各种不同形式的推广,Musielak-Orlicz空间是较为常见的一种。一致凸性质、β性质和弱β性质都是Banach空间的重要几何概念,它在逼近
轩岗煤电公司刘家梁矿自2002年重组改制以来,矿党委积极探索党建工作的新载体,实施了“四大工程”,收到了明显效果。一是以“党员形象语言”活动为重点的窗口工程。“党员形
  投射模和内射模是环模理论中最重要的模类,它们也构成了同调代数的主要研究对象。它们性质的研究有着非常重要的意义和广泛的应用。本论文研究了模的投射性质,并利用Grothe
第一章  对捕食者具有脉冲作用的Lotka-Volterra捕食-食饵系统的灭绝和持久性  在种群生态学中,Lotka-Volterra模型是一个基本的模型,模型按其生态意义可分为三类:捕食与食
随着移动端技术的日益发展,手机与网络的结合推动了手机媒体的快速发展,其强大的功能受到了大学生群体的青睐,成为了大学生活的重要组成部分之一,对高校大学生管理工作提出了
本论文分别讨论了几类时滞偏差分方程解的振动性和两类时滞偏差分方程的正解不存在性,同时对非齐次线性偏差分方程的稳定性进行了研究。 对于常系数时滞偏差分方程,讨论
支撑向量机是建立在统计学习理论基础上的模式识别方法,是近年来机器学习的研究热点,随着其在理论和算法上的不断完善,现已成为机器学习的有力工具。在机器学习中,总假设每个
在全党弘扬求真务实精神,大兴求真务实之风,是以胡锦涛为总书记的党中央以战略的思维、深邃的眼光和科学的态度提出的一个十分重要而又具有根本意义的大问题。当前,一项重要