论文部分内容阅读
随着计算机技术的飞速发展,统计学的理论研究和实际应用也正日渐丰富和完善。人们在实际数据分析中所用到的主要建模工具也正由最初的参数回归模型逐渐扩展为各种形式复杂的非参数类回归模型。特别是近二三十年来,各种半参数回归模型不断涌现,大大丰富了统计学的研究内容。
半参数回归模型由于它既包含参数部分,又包含非参数部分,因而能够兼备非参数回归模型和参数回归模型两者的许多优点,同时又可避免非参数模型拟合中的“维灾难”问题(Bellman(1961))。表现非常灵活,因此在实际应用中备受青睐。常见的半参数模型包括:部分线性模型,这个模型最先由Engle et al.(1986)在研究天气条件对电力需求的影响时引入,并且一经提出便受到广泛关注,关于它的详细讨论可参看专著H□rdle et al.(2000);变系数模型,这个模型最先由Hastieand Tibshirani(1993)提出,关于它估计方法,见Fan and Zhang(1999)、Xia and Li(1999)、Cai et al.(2000)及综述性文献Fan and Zhang(2008)等;单指标模型,这个模型最先由Ichimura(1987)提出,它的进一步推广形式包括部分线性单指标模型(Carroll et al.(1997))和变系数单指标模型(Wong et al.(2008))等。由于半参数模型灵活,易于解释,因此在生物、经济和环境科学等诸多领域中有着广泛的应用。
在有关半参数模型的早期文献中,大部分文献都集中于讨论观察数据为完全数据的情形。而事实上,由于多方面的原因,数据缺失的现象在实际生活中普遍存在(金勇进,邵军(2009))。而当数据存在缺失时,如果只是简单的丢弃其中带缺失项的观察值,而只用其中不存在缺失项的数据,即使用通常所讲的完全数据分析法时,不仅可能会造成传统的估计方法出现偏差,而且还可能会导致所得估计量的方差出现较大扭曲,产生所谓的低效估计(Little and Rubin(2002),Tsiatis(2006))。因此,在进行统计推断时,如何将带缺失项的数据同时加以考虑一直是统计学家们感兴趣的问题。
关于半参数回归模型,这方面已有一些结果见诸文献。如Wang etal.(2004)和Liang et al.(2004)分别讨论了带随机缺失数据的部分线性模型中的统计推断问题,Liang and Qin(2008)考虑了当协变量随机缺失时,部分线性模型未知参数的经验似然域的构造问题,Wong etal.(2009a)讨论了带缺失数据的变系数模型局部估计问题,Wang etal.(2010)及Lai and Wang(2011)分别讨论了带缺失响应变量的单指标、部分线性单指标模型的估计问题等。但是与完全数据的情形相比,这方面的研究仍然不够充分,尚有大量问题需要深入探讨。如当数据存在缺失现象时,相关半参数模型的异方差检验如何进行;在存在缺失数据的情况下,一些较为复杂的模型,如部分线性单指标模型、变系数模型等,的未知参数的估计或经验似然域如何构造等,仍然有待继续深入研究。
针对协变量可能存在随机缺失的情况,本文的研究成果主要有:(一)、在采用逆概率加权公式(Horvitz and Thompson(1952))的基础上:讨论了变系数模型的经验似然推断问题,提出了三个不同的局部加权经验似然比和一个部分截面局部加权经验似然比,用以构造未知参数的某些或者全部分量的置信区域。在一定条件下,本文还推导了这里统计量的渐近性质,并利用统计模拟的方式考察了它们的有限样本性质;(二)、研究了部分线性模型中的异方差检验问题,将Wong etal.(2009b,c)的方法成功推广至协变量可能随机缺失的情形中,提出了两种新的检验统计量。模拟实验和实际数据分析都表明,新提的检验方法表现良好;(三)、考察了部分线性单指标模型中未知参数及误差方差的估计问题,在结合加权估计等式的基础上(Liang(2008)),本文新提了一套循环迭代算法用以估计这里的未知参数,并推导了所得估计的渐近正态性,模拟结果表明,这里的方法表现良好。
在本文中,我们主要使用了经验似然这一强大的非参数统计推断方法。经验似然最先由Owen(1988)提出。与经典或现代的统计方法相比,这一方法的突出优点包括:(1)、使用经验似然方法所构造的置信区间具有域保持性、变换不变性;(2)、与基于正态逼近的方法不同,使用经验似然所构造的置信域的形状由数据自行决定;(3)、在整个统计推断过程中,无需构造轴统计量,无需估计方差——这在许多实际应用中往往较难实现,特别是当数据存在缺失或者删失时;(4)、类似于Bootstrap方法,经验似然还具有某种抽样性质,但不是重抽样等等。关于这个方法的详细讨论可参看专著Owen(2001),或者最新的综述性文献Chen and Van Keilegon(2009)。