含指标项半参数回归模型的分位数回归与变量选择

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:hejianfeng05
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
含指标项的半参数模型是高维半参数统计模型中一类非常重要的模型,主要包括单指标模型,部分线性单指标模型,单指标变系数模型和变系数单指标模型等。这类模型的的一个重要特征是将高维协变量通过降维技术转化为一元的指标变量(Index),可以有效地避免了“维数祸根(Curse of Dimensionality)"问题,在保持良好的可解释性的同时,又具有非参数建模的弹性,可以有效地揭示响应变量和高维协变量之间的关系。由于含指标项的半参数模型具有上述优点,此类模型的统计分析问题仍是当前统计界研究的重点和热点。现有的关于此类模型的估计方法大多关注其均值回归,基于最小二乘方法和似然方法以及剖面似然方法。这些方法对于异常点非常敏感,误差偏离正态分布时,估计效率大大下降。相对于均值回归只描述响应变量的平均水平,Koenker and Basset [29]提出的分位数回归可以对响应变量的分布给出更好的描述,提供更有价值的信息,并且可以有效避免离群点的影响。鉴于分位数回归的估计效率受到特定的分位数取值的影响,Zou and Yuan [72]提出综合多处分位数回归估计的信息的复合分位数回归,有效克服了单个分位数回归效率下降的缺陷。复合分位数回归己被证实可以克服非正态误差的干扰并显著提高估计效率。关于含指标项半参数模型的分位数回归和复合分位数回归的研究已经有了初步的研究。其中Wu et al.[55]考虑了单指标模型的分位数回归,Jiang et al.[23]考虑了单指标模型的复合分位数回归估计问题,Jiang et al.[24]提出了一个两步估计方法实现了单指标模型的复合分位数回归。对于含指标项半参数模型中的其他两个模型的分位数回归,至今尚没有文献记载。本文着重研究了此类模型中单指标模型,部分线性单指标模型以及单指标变系数模型的分位数回归、复合分位数回归的估计问题及其中的变量选择问题。本文的研究工作填补了当前含指标项半参数模型的分位数回归、复合分位数回归及变量选择问题研究的空白。首先考虑单指标模型(Single-index Model, SIM),形式为Y=g(XTθ)+ε,其中Y∈R为响应变量,X=(X1,…,Xp)T∈Rp为协变量,£为模型误差,g(·)为未知的指标函数,也称为联系函数,θ=(θ1,…,θp)T∈Rp为未知的指标参数,为模型的可识别性,设||θ||=1且θ1>0。我们提出了一个新的估计方法实现SIM的分位数回归和复合分位数回归,证明了算法的收敛性,得出了可达最优收敛素的估计量,建立了所得估计量的渐近性质,并比较了复合分位数回归估计相应于最小二乘估计的相对渐进效率。进一步地,通过结合所提估计方法和Zou[71]中的自适应LASSO方法,我们提出了两个变量选择方法分别用于单指标模型的分位数回归及复合分位数回归估计中指标协变量的变量选择问题,并建立了所提变量选择方法的Oracle性质。数值模拟和实例分析进一步证实了所提方法的优良性质。其次我们考虑了部分线性单指标模型(Partial linear single-index model, PLSIM)的分位数回归和复合分位数回归。部分线性单指标模型的标准形式为Y=g(XTθ)+ZTβ+θZ=(Z1,…,Zd)T∈Rd为协变量,β为未知的线性参数,其他条件同上述的单指标模型。关于单指标部分线性模型的分位数回归尚无文献记载。关于单指标部分线性模型的分位数回归,我们提出了最小平均分位数损失估计的方法,在避免半参数模型中为达到参数最优收敛素的而对非参数函数进行“欠拟合”估计的同时得出了模型参数(θ,β)和未知非参数函数g(·)的最优收敛速度的分位数回归估计,建立了所得估计量的渐近性质。进一步地,通过结合MACLE方法和自适应LASSO方法,实现了部分线性单指标模型的分位数回归的变量选择问题,建立了模型选择的Oracle性质。鉴于单个分位点的分位数回归的效率会随分位点的取值波动,只捕捉了响应变量单个分位点的性质,结合多处分位点的信息可以得出参数和非参数函数的更为有效的估计,我们考虑了PLSIM的复合分位数回归。我们将MACLE方法推广至刂PLSIM的复合分位数回归中,提出了复合最小化平均分位数损失估计的方法,实现部分线性单指标模型的复合分位数回归估计,得出了未知知参数和未知函数的可达最优收敛速度的估计量。我们证明了所提算法的收敛性,建立了所得估计量的渐近性质,并深入比较了所得估计量相对于最小二乘估计的相对渐近效率。进一步地,我们考虑了PLSIM的复合分位数回归的变量选择问题,建立了变量选择方法的Oracle性质。数据模拟和实例分析证实了我们的理论结果。最后我们考虑了单指标系数模型(Single-Index Coefficient Model,SICM)的分位数回归和复合分位数回归及变量选择问题。单指标系数模型形式如下:Y=g(XTθ)TZ+θZ=(Z0,…,Zd-1)T∈Rd为协变量,g(·)=(90(·),g1(·),…,gd-1(·))T为未知的系数函数,其他条件同上述单指标模型。不失一般性,可设Z0=1。关于单指标系数模型的分位数回归还未见有文献记载。我们将上面所提的最小化平均分位数损失估计方法和复合最小化平均分位数损失估计方法推广SICM中,得出了可达最优收敛速度的估计,证明了算法的收敛性,建立了所得估计量的渐近性质,特别地对于SICM的复合分位数回归,我们比较了所得估计量相对于Lu et al.[36]提出的剖面似然估计的相对渐近效率。此外我们考虑了SICM的分位数和复合分位数回归的变量选择问题,并建立了所提变量选择方法的Oracle性质。随机模拟和实例分析进一步证实了我们所提估计方法和变量选择方法的有效性。
其他文献
目的制备重组人血管内皮抑制素(rh-endostatin)温度敏感型缓释凝胶制剂并考察其体外释放。方法以聚丙交酯-乙交酯-聚乙二醇嵌段共聚物(PLGA-PEG-PLGA)为载体材料制备rh-endostati
<正>近来,国际上相继报道了一些小分子物质可以延长模型生物寿命,也能改善老年相关性疾病,如白藜芦醇(RES)、雷帕霉素(Rapamycin)等,一些治疗药物,如他汀类,在抗衰老中也发挥
提出了一种基于空间邻域信息和灰度分布信息的模糊C均值图像分割改进算法。将空间邻域信息引入目标函数中,充分考虑邻域像素对聚类的影响,定义新的特征距离为空间距离和灰度
汽车是现代社会的主要工业产物,新时期,为了缓解环境问题,电动汽车应运而生。充电桩是电动汽车的能量来源,加强其研究方能为电动汽车的发展奠定良好基础,本文首先介绍了充电
<正>一、研究背景(一)自贸区成立的历史沿革在当今世界,自由贸易区的发展形势非常迅猛,在全球范围内其数量已经达到数十个,范围遍及各大洲,是区域经济一体化的主要形式之一。
目的探讨健康教育配合药物治疗对健康体检中糖尿病患者的干预效果,旨在提高治疗效果。方法将2008年11月~2009年11月在我院进行健康体检并确定为患有糖尿病的96例患者随机分为
作为日本著名儿童文学家,小川未明发表了数量众多的作品,被誉为日本的安徒生。小川未明在大正时期完成了日本儿童文学从传统说话文学向近代童话的转变,确立了日本近代儿童文
总结黑龙江对俄科技合作发展现状,分析黑龙江对俄科技合作的影响因素,为黑龙江对俄科技合作提供有价值的参考。
医院药学教有别于学校教学,具有时代特征和社会责任,笔者就医院药学教学工作中存在的问题结合当前社会发展的需求,进行了深入的思考与探索,在解决问题的同时,力求使医院教学
目的研究神农颈痛灵软膏的中药原料提取工艺。方法选用羟基红花黄色素A的含量为指标,通过正交试验L9(34)法〔1〕,分别对乙醇浓度、提取次数、溶媒用量、提取时间进行考察,并考