论文部分内容阅读
含指标项的半参数模型是高维半参数统计模型中一类非常重要的模型,主要包括单指标模型,部分线性单指标模型,单指标变系数模型和变系数单指标模型等。这类模型的的一个重要特征是将高维协变量通过降维技术转化为一元的指标变量(Index),可以有效地避免了“维数祸根(Curse of Dimensionality)"问题,在保持良好的可解释性的同时,又具有非参数建模的弹性,可以有效地揭示响应变量和高维协变量之间的关系。由于含指标项的半参数模型具有上述优点,此类模型的统计分析问题仍是当前统计界研究的重点和热点。现有的关于此类模型的估计方法大多关注其均值回归,基于最小二乘方法和似然方法以及剖面似然方法。这些方法对于异常点非常敏感,误差偏离正态分布时,估计效率大大下降。相对于均值回归只描述响应变量的平均水平,Koenker and Basset [29]提出的分位数回归可以对响应变量的分布给出更好的描述,提供更有价值的信息,并且可以有效避免离群点的影响。鉴于分位数回归的估计效率受到特定的分位数取值的影响,Zou and Yuan [72]提出综合多处分位数回归估计的信息的复合分位数回归,有效克服了单个分位数回归效率下降的缺陷。复合分位数回归己被证实可以克服非正态误差的干扰并显著提高估计效率。关于含指标项半参数模型的分位数回归和复合分位数回归的研究已经有了初步的研究。其中Wu et al.[55]考虑了单指标模型的分位数回归,Jiang et al.[23]考虑了单指标模型的复合分位数回归估计问题,Jiang et al.[24]提出了一个两步估计方法实现了单指标模型的复合分位数回归。对于含指标项半参数模型中的其他两个模型的分位数回归,至今尚没有文献记载。本文着重研究了此类模型中单指标模型,部分线性单指标模型以及单指标变系数模型的分位数回归、复合分位数回归的估计问题及其中的变量选择问题。本文的研究工作填补了当前含指标项半参数模型的分位数回归、复合分位数回归及变量选择问题研究的空白。首先考虑单指标模型(Single-index Model, SIM),形式为Y=g(XTθ)+ε,其中Y∈R为响应变量,X=(X1,…,Xp)T∈Rp为协变量,£为模型误差,g(·)为未知的指标函数,也称为联系函数,θ=(θ1,…,θp)T∈Rp为未知的指标参数,为模型的可识别性,设||θ||=1且θ1>0。我们提出了一个新的估计方法实现SIM的分位数回归和复合分位数回归,证明了算法的收敛性,得出了可达最优收敛素的估计量,建立了所得估计量的渐近性质,并比较了复合分位数回归估计相应于最小二乘估计的相对渐进效率。进一步地,通过结合所提估计方法和Zou[71]中的自适应LASSO方法,我们提出了两个变量选择方法分别用于单指标模型的分位数回归及复合分位数回归估计中指标协变量的变量选择问题,并建立了所提变量选择方法的Oracle性质。数值模拟和实例分析进一步证实了所提方法的优良性质。其次我们考虑了部分线性单指标模型(Partial linear single-index model, PLSIM)的分位数回归和复合分位数回归。部分线性单指标模型的标准形式为Y=g(XTθ)+ZTβ+θZ=(Z1,…,Zd)T∈Rd为协变量,β为未知的线性参数,其他条件同上述的单指标模型。关于单指标部分线性模型的分位数回归尚无文献记载。关于单指标部分线性模型的分位数回归,我们提出了最小平均分位数损失估计的方法,在避免半参数模型中为达到参数最优收敛素的而对非参数函数进行“欠拟合”估计的同时得出了模型参数(θ,β)和未知非参数函数g(·)的最优收敛速度的分位数回归估计,建立了所得估计量的渐近性质。进一步地,通过结合MACLE方法和自适应LASSO方法,实现了部分线性单指标模型的分位数回归的变量选择问题,建立了模型选择的Oracle性质。鉴于单个分位点的分位数回归的效率会随分位点的取值波动,只捕捉了响应变量单个分位点的性质,结合多处分位点的信息可以得出参数和非参数函数的更为有效的估计,我们考虑了PLSIM的复合分位数回归。我们将MACLE方法推广至刂PLSIM的复合分位数回归中,提出了复合最小化平均分位数损失估计的方法,实现部分线性单指标模型的复合分位数回归估计,得出了未知知参数和未知函数的可达最优收敛速度的估计量。我们证明了所提算法的收敛性,建立了所得估计量的渐近性质,并深入比较了所得估计量相对于最小二乘估计的相对渐近效率。进一步地,我们考虑了PLSIM的复合分位数回归的变量选择问题,建立了变量选择方法的Oracle性质。数据模拟和实例分析证实了我们的理论结果。最后我们考虑了单指标系数模型(Single-Index Coefficient Model,SICM)的分位数回归和复合分位数回归及变量选择问题。单指标系数模型形式如下:Y=g(XTθ)TZ+θZ=(Z0,…,Zd-1)T∈Rd为协变量,g(·)=(90(·),g1(·),…,gd-1(·))T为未知的系数函数,其他条件同上述单指标模型。不失一般性,可设Z0=1。关于单指标系数模型的分位数回归还未见有文献记载。我们将上面所提的最小化平均分位数损失估计方法和复合最小化平均分位数损失估计方法推广SICM中,得出了可达最优收敛速度的估计,证明了算法的收敛性,建立了所得估计量的渐近性质,特别地对于SICM的复合分位数回归,我们比较了所得估计量相对于Lu et al.[36]提出的剖面似然估计的相对渐近效率。此外我们考虑了SICM的分位数和复合分位数回归的变量选择问题,并建立了所提变量选择方法的Oracle性质。随机模拟和实例分析进一步证实了我们所提估计方法和变量选择方法的有效性。