论文部分内容阅读
统计学是一门收集数据、分析数据和解释数据的学科.当实际工作者获取了一组数据后,可以利用统计学工具拟合出众多模型,但如何寻找出最合适的模型一直是统计学的热门研究课题.太过复杂的模型可能导致估计或预测的方差过大,而过于简单的模型又可能造成估计或预测存在较大的偏差.为了解决此问题,在过去的几十年,学者们提出了多种模型选择准则和方法,如AIC(Akaike’s information criterion)、BIC(Bayesian information criterion)、FIC(focused information criterion)、Mallows’Cp、交叉验证、LASSO(least absolute shrinkage and selection operator)和 SCAD(smoothly clipped absolute deviation)等等.依据这些准则或方法,可以从众多的候选模型中寻找到最佳的模型,然后把选定的模型当作真实的数据产生过程,之后的统计推断完全依赖于该模型.模型选择方法虽然在一定程度上解决了上述问题,但这些方法本身也有着明显的缺陷.例如,稳健性不够理想,忽视模型选择阶段产生的不确定性,可能遗失有用信息,推断存在高风险等.为了避免这些缺陷,一个行之有效的方式是采用将多个模型组合起来的模型平均方法.与模型选择方法只挑选出单一的最优模型不同,模型平均方法组合了来自多个候选模型的估计或预测,不仅考虑了模型选择阶段带来的不确定性,还避免了选取单一模型的潜在风险,从而能减小估计或预测的均方误差,提高稳健性.近年来,模型平均方法得到了长足的发展,取得了大量的研究成果.其中一个重要的研究方向是频率模型平均(Frequentist model averaging,FMA)方法,它主要关注两个问题:一个是选取模型平均最优权重;另一个是确定模型平均估计量的渐近分布.若单从估计或者预测的角度来看,模型选择可视为模型平均的特例.然而,模型平均方法不应完全代替模型选择方法,它们可以是互为补充的关系,例如多位学者提出先进行模型选择,进而在选出的模型基础上进行模型平均.缺失数据是现代统计实践中一种重要的复杂数据类型.探究缺失数据下的统计分析方法是近年来统计研究的热点.本学位论文拟在缺失数据下,基于借补方法或逆概率加权方法,讨论几类回归模型(部分线性模型、部分线性变系数模型以及线性分位数回归模型)的模型选择和模型平均问题,推导出具体模型下的模型选择准则以及平均估计量的渐近分布.具体来说,论文的主要内容包括以下四个方面.(1)对于半参数部分线性模型,讨论响应变量随机缺失下的模型选择和模型平均问题.基于借补方法和权函数方法得到各候选子模型下参数的估计及其渐近性质,推导FIC模型选择准则和FMA估计量,给出模型平均估计量的渐近分布,为兴趣参数构造合适的置信区间.通过数值模拟验证所提方法的有限样本表现.(2)对于响应变量随机缺失下的部分线性变系数模型,研究基于借补法和剖面最小二乘技术的FIC模型选择准则和相应的S-FIC(smoothed FIC)模型平均估计量.在局部误设定框架下,证明各候选子模型中兴趣参数估计量的渐近正态性,在此基础上给出FIC计算公式,以进行模型选择和构造S-FIC模型平均估计量的权重函数,最后推导出FMA估计量的渐近性质.模拟研究和实例分析均表明所提方法的有效性.(3)以响应变量随机缺失下的部分线性变系数模型为研究对象,通过基于协变量平衡倾向得分的逆概率加权方法得出FIC计算公式和FMA估计量.在局部误设定框架下,探讨FIC和FMA的理论性质.模拟研究不仅说明了基于协变量平衡倾向得分的逆概率加权方法的稳健性,而且体现出所提出的模型平均估计方法的优越性.(4)对于线性分位数回归模型,探究协变量随机缺失时的模型平均问题.首先定义各候选子模型下回归系数的加权分位数回归估计量,然后证明各候选子模型下参数及其函数的估计量的渐近正态性,接着给出模型平均估计的渐近分布,最后基于模型平均估计量构造覆盖真实兴趣参数的概率趋近于名义水平的置信区间.模拟研究表明,就均方误差和覆盖概率而言,所研究的模型平均估计优于相应的模型选择估计.