论文部分内容阅读
在现代科学研究的很多领域,比如医学研究、农业研究、社会调查、经济学、生物学以及流行病学等领域,常常会遇到纵向数据以及缺失数据等复杂数据。而且,随着数据收集能力的提高和成本的降低,以及数据存储技术的快速发展,数据的维数越来越大。另外,由于半参数模型能够避免完全非参数模型的“维数灾难”以及参数模型的模型假定错误风险,其应用范围十分的广泛。所以,研究高维复杂数据半参数模型的统计推断问题有重要的理论意义和实用价值,这也成为了当今统计界的热点问题。本文的第二章研究了纵向数据部分线性变系数模型的部分线性结构识别和变量选择问题。部分线性变系数模型因为其灵活性和简洁性被广泛地应用在纵向数据的分析中。然而,关于这个模型的推断方法都是基于如下假定:哪些变量对响应变量具有常数效应和哪些变量对响应变量具有变化效应是已知的,即假定协变量可以分为互不相交的两部分与其中xij(1)具有变化效应,xij(2)具有常数效应,然后所有的推断问题都是基于模型进行的。这个部分线性模型结构假定在实际建模中具有基础性的地位,因为模型拟合的有效性以及后续的理论推断都很大程度上取决于模型结构指定是否准确。然而,在实际应用中这种假定是不合理的,因为我们很难凭经验准确的确定某个变量具有变化效应还是常数效应,这就导致了现有方法的局限性。而且,在实际中,模型相关变量集合以及每个相关协变量xijk对响应变量yij的作用形式在响应变量的均值以及不同的百分位点处往往是不同的。例如,在第2.4节,分析纵向的AIDS数据时,我们发现协变量PreCD4对响应变量的低分位数具有变化效应,而对均值以及高分位数具有常数效应。另外,观测数据往往是存在异常点的,这就需要方法稳健。注意到,半参数部分线性变系数模型一定具有如下潜在的结构,其中,0(·)表示取值恒为零的函数,集合AV,AC以及Az是未知的,分别代表变化效应、非零常数效应以及零效应变量(即不相关变量)的指标集合,他们是互不相交的,且满足AV∪AC∪Az={1,…,p)。基于一个可以将均值回归、中位数回归、分位数回归及稳健的均值回归纳入同一个框架下的一般的M型损失函数以及惩罚型变量选择方法的思想,第二章提出了一个惩罚的M型回归,其能够一步实现非零系数αk(·),k∈Av与βk,k∈AC的估计和三种类型的选择:变化效应和非零常数效应选择,以及模型相关变量选择(即,识别未知的指标集合AV,AC以及Az)。该方法计算简便,而且通过选择不同的损失函数,可以更加清楚地刻画响应变量和协变量之间的关系以及做到对异常点稳健。理论方面,在一些正则条件下,建立了三种类型的选择的选择相合性以及系数估计的Oracle性质。选择相合表明新方法能够正确地识别变化效应、非零常数效应以及相关变量的概率趋近于1,即其中,AV,AV以及Az分别是Av,AC以及Az的估计。这里的Oracle性质意味着变系数函数αk(·),k∈AV的估计达到了最优的收敛速度,而非零的常数系数βk,k∈AC的估计具有与在部分线性结构及相关变量已知的情况下得到的估计相同的渐近分布。数值模拟结果和实际数据分析也都进一步证实了方法的有效性。本文的第三章考虑如下的分组加法多指标模型的稳健估计问题。其中,gk(·)是未知的联系函数,Y∈R为响应变量,X∈Rp是p维的预测向量,假定X可以被划分为K个互不相交的分组,即,是与Xk相对应的我们感兴趣的指标向量,随机误差(?)与X相互独立。Wang et al.(2015)也考虑了相同的模型。很明显,当K=1时,其变为传统的单指标模型。如果K=2而且g1(u)=u,其变为部分线性单指标模型。而且,在函数gk(·),k=1,…,K没有给定的情况下,指标参数βk,k=1,…,K是不可识别的。因此,我们对β,k=1,…,K的方向更加感兴趣,而不是其真实值。定义p×K矩阵其中,Opk×1是pk×1的零矩阵,k=1,…,K。很明显,针对上面的分组加法多指标模型,在PTX的条件下,Y与X是独立的。P的列空间被称为中心降维子空间(Li 1991,Wanget al.2015)。在假定如下的线性条件:成立时,Wang et al(2015)证明了线性最小二乘解与(β1T,…,βKT)T同方向,即,存在φk∈R,k=1,…,K,使得成立。然而,众所周知,最小二乘方法极易受到异常值以及重尾分布的影响。因此,探究如何利用稳健高效的复合分位数方法(Zou and Yuan 2008,Kai et al.2011)来改进最小二乘方法的缺陷是很有意义的。有趣的是,与最小二乘解βLs相似,我们发现,不需要借助任何的非参数方法,Y关于X的简单线性复合分位数回归系数可以提供βk,k=1,…,K的方向的相合以及渐近正态估计。具体地讲,假定,0<τ1<τ2<…<τq<1,b= (b1,…,bq)T,η=(η1T,…,ηKT)T,ηk(ηk1,…,ηkpk)T,k=1,…,K,首先定义如下的总体形式的线性复合分位数损失函数其中,ρτj(u)=τju-u1(u<0),是示性函数。令,(6,η)=arg minb,ηL(b,η),在相同的线性条件下,我们证明了η=(η1T,…,ηKT)T属于P的列空间,即,存在κ=(κ1,…,κK)T∈RK,使得下式成立这就意味着,K个指标向量βk,k=1,…,K的方向可以通过线性复合分位数回归的方法进行识别。接下来,基于样本{Xi,Yi}i=1n,L(b,η)的样本形式定义为然后,令(b,η)=arg minb,ηLn(b,η)。那么,η=(η1T,…,ηKT)T即是η的线性复合分位数估计,而且,我们证明了η的渐近正态性。另外,我们也通过bootstrap方法得到了估计量的近似分布。作为具体的应用,针对部分线性单指标模型的稳健估计问题,我们提出了一个不需要迭代的复合分位数估计方法,并且证明了渐近性质。另外,针对稀疏的高维模型的变量选择问题,我们提出了如下惩罚的复合分位数回归变量选择方法其中,pλ(·)是惩罚函数,本章主要考虑两个非凸的惩罚函数:SCAD(Fan and Li 2001)以及MCP(Zhang 2010),λ是非负的压缩参数。在p》n的情况下,我们建立了变量选择的Oracle性质,即其中,Bn(λ)表示压缩参数为λ时,上面惩罚的复合分位数目标函数的局部最小值集合,η°为oracle估计,即在真实模型下得到的估计。这里的Oracle性质意味着最终的估计量就是oracle估计本身以概率成立,而并不是仅仅模仿oracle估计。由于继承了复合分位数回归方法的优势,本章的方法在稳健性以及估计效方面具有优势。数值模拟结果以及实际数据的分析也证实了我们的方法。第四章考虑如下的d维的估计函数:其中,θ=(θ1,…,θp)τ是p维的待估参数,Qk(θ,y,x),k=1,…,d是给定的函数,其关于θ可能是非线性的,丁表示向量的转置。而且假定估计函数是条件无偏的,即,存在唯一的解θ0满足当条件估计函数是非线性的以及数据带有缺失时,统计分析会面临两方面的困难:完整数据分析的模型不可识别性以及非参数插补方法会失效。为了解决这些问题,针对上面的带有缺失数据的非线性条件估计方程,本章提出一个完全插补光滑距离。基于此,针对估计方程中的未知参数,我们进一步提出一个最小光滑距离估计方法。这个方法可以唯一的识别非线性模型中的参数,而且,尽管中间过程使用了多元核函数,但对于一个固定的、不趋向于零的窗宽,最终的估计依然具有而相合性以及渐近正态性。即,对任意的h0>0,当窗宽为h样本量为n时,在一些正则条件下,估计量θn,h*满足下式而且,依分布收敛到一个以h为指标而且以零为均值的正态分布为边际分布的紧的随机过程,对于h∈Hn={h0≥h>0:nh4p/α≥C}一致成立,其中,C>0,0<α<1。当然,对于趋向于零的窗宽,相合性以及渐近正态性也自然成立。因此,在模型是非线性的以及变量是多元的情况下,这个新方法具有很强的灵活性。第二章提出的方法有如下几方面的缺陷:第一,只适应于响应变量yij是连续的情况,在yij是离散数据的时候不可用;第二,尽管是针对纵向数据,但是并没有利用纵向数据的组内相关结构,而仅是简单地假定工作独立,这将造成估计效的损失;第三,尽管中位数回归以及稳健均值回归具有稳健性,但是却有估计效的不足。Wang et al.(2013)提出一个指数平方损失函数1-exp(-r2/h),其得分函数为注意到,φh(r)也是有界的得分函数,因为这里,压缩参数h控制着估计量的稳健性和有效性。具体的讲,对于较大的h,1-exp(-r2/h)≈r2/h,因此,最终的估计类似于最小二乘估计。而对于较小的h,大的|r|值不会产生太大的损失。因此,较小的h将会降低异常点对估计的影响。Wang et al.(2013)指出,相比较于其他稳健方法,例如,Huber估计、分位数回归(Koenker and Bassett 1978)以及复合分位数回归(Zou and Yuan 2008)等,φh(r)的表现要更好。第五章主要研究具有如下潜在结构的纵向数据广义部分线性变系数模型其中,g-1(·)是给定的联系函数。基于指数平方得分函数φh(r)以及广义估计方程的思想,本章提出了一个稳健以及高效的估计量,其可以同时进行变量选择以及模型部分线性结构的识别。更重要的是,其能够弥补第二章方法的缺陷。这个方法是基于一个新提出的光滑门限的(smooth-threshold)稳健广义估计方程,其可以充分地利用纵向数据的组内相关结构来提高估计效率,而且通过利用有界的指数得分函数以及基于杠杆点的(leverage-based)权重,其对来自于响应变量和协变量方向的异常点稳健。另外,通过利用一个额外的压缩参数h,新的估计量可以达到估计效率和稳健性的平衡。类似于第二章,在一些较弱的条件下,我们证明了其正确地选择相关变量以及识别模型部分线性结构的概率趋近于一。而且变系数以及非零常数系数可以被准确的估计,就像模型结构以及相关变量是预先已知的一样。数值模拟的结果也证实了我们的方法。