分位数回归中的若干问题研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户：zhang1118168

【摘要】

：

变量选择在统计分析中是一个很重要的话题，而删失数据在实际生活中也十分常见。本文的主要研究是为变系数模型提供系统的变量选择方法，也为固定删失数据的分位数回归给出一种简

【作者】

：

唐炎林

【机构】

：

复旦大学

【出处】

：

复旦大学

【发表日期】

：

2011年期

【关键词】

：

自适应LASSO惩罚基函数逼近 B样条函数线性规划分位数回归变量选择变系数模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

变量选择在统计分析中是一个很重要的话题，而删失数据在实际生活中也十分常见。本文的主要研究是为变系数模型提供系统的变量选择方法，也为固定删失数据的分位数回归给出一种简单、有效的算法。本文主要工作和结论如下：　　 (1)、基于自适应LASSO和基函数逼近，为纵向数据的分位数变系数模型提供了一种新的变量选择方法。本文研究一类自适应组LASSO惩罚，允许对每组基函数系数的Lα范数进行惩罚，α≥1。所构造的方法具有变量选择的相合性，且变系数函数的估计量达到了相同光滑条件下的最优收敛速度。数值模拟和两个实际数据分析验证了其有限样本性质。　　 (2)、基于双重自适应LASSO惩罚和基函数逼近，为变系数模型在最小二乘回归和分位数回归下构造了统一的变量选择方法，同时解决变系数模型的三类变量选择问题：(ⅰ)区分系数为变系数函数和常数的协变量；(ⅱ)选择系数为非零函数的协变量；(ⅲ)选择系数为非零常数的协变量。惩罚估计量在变量选择和常、变系数区分上都是相合的。此外，得到的变系数估计量达到了同样光滑条件下的最优收敛速度，而非零常系数的渐近性质和真实模型下估计量的性质一样。数值模拟和实际数据分析验证了所构造方法的有限样本性质。　　 (3)、基于LASSO-型惩罚和基函数逼近，为超高维分位数变系数模型构造了一种两步方法来进行降维和变量选择。即使在不相关变量个数以样本量的接近指数级增长时，第一步估计量仍是相合的。该方法可以把模型的维数从超高维降到与真实模型大小接近的阶，且真实模型被包含在所选模型中。第二步对第一步之后被选出来的模型采用自适应LASSO惩罚，具有变量选择的相合性。数值模拟和实际数据分析被用来验证该两阶段方法的有限样本性质。　　 (4)、固定删失数据的分位数回归已经有很多文献研究，但是现存的方法或者不够稳定，或者需要包含修整或者光滑的复杂步骤，使得估计量的渐近性质很复杂。本文通过对某个子集内的数据进行标准的分位数回归，构造了一个简单的估计量。证明了只要条件删失概率的相合估计达到某一种非参数收敛速度，且满足一定的光滑条件，所得系数估计量能达到与Powell估计量相同的渐近效率，是在固定删失的情况下对现存方法的进一步简化。大量的数值模拟表明所构造的估计量稳定且与其他更精致的方法具有可比性。　　本文的结论创新之处：一、本文把现有的变量选择方法推广到了分位数变系数模型之下，丰富了变量选择的结果。二、本文解决了不可导的分位数损失函数与惩罚函数之间的平衡，证明了自适应LASSO的变量选择相合性以及非零系数函数的最优收敛速度。三、在超高维最小二乘回归中存在三个问题：(ⅰ)误差要求是次高斯的，(ⅱ)受异常点影响较大，不够稳健，(ⅲ)只能考虑协变量与条件均值之间的关系，不够系统。本文所研究的分位数变系数模型避免了上述问题，并利用线性规划与经验过程等理论证明了LASSO可以把模型降维到与真实模型接近的阶。四、本文在固定删失数据的分位数回归中简化了现存方法，并证明其估计量达到了Powell估计量相同的渐近效率。　　本文方法创新之处：一、利用自适应LASSO和分位数损失函数的凸性，为变系数模型，尤其是在分位数回归中，提供了较为系统的变量选择方法。二、本文先利用LASSO对模型进行降维，再用自适应LASSO进行变量选择，解决了超高维分位数变系数模型的变量选择问题。三、本文为固定删失数据的分位数回归提供了一种简单有效的估计方法。　　本文将变量选择方法推广到了分位数变系数模型，同时解决了变系数模型中的三类变量选择问题：(ⅰ)区分系数为变系数函数和常数的协变量；(ⅱ)选择系数为非零函数的协变量；(ⅲ)选择系数为非零常数的协变量。本文还解决了超高维分位数变系数模型的变量选择问题，避免了最小二乘回归的重重限制。本文的方法和结论丰富了变量选择的方法，将有助于生物、金融、基因切片等各个领域中重要变量的选取，以精简模型，提高预测精度。本文提供的简单有效的估计方法，有助于对固定删失数据的特定分位数回归的参数进行估计。　　

其他文献

图像检索的关键问题研究

网络的普及,使得人们检索到感兴趣的图像变得更加困难,需要有专门的技术来实现,这就是图像检索技术。图像检索技术是信息检索的一种。图像检索的技术有两类：基于文本的图像检

学位

图像检索特征提取颜色特征

信息聚合理论及其在决策中的应用

近年来，信息聚合理论在应用方面取得了举世瞩目的成功。它的理论和方法在医学、经济、管理和军事等诸多领域中得到了广泛的应用。在信息聚合理论中，国内外的众多学者提出了各种

学位

决策信息聚合聚合算子OWA算子

混合管与充填软管间四通接头的改进设计

在充填料浆的输送过程中,充填管路接头起着至关重要的作用。某煤矿超高水材料充填开采过程中,前期使用的混合管与充填软管的简易接头因其诸多缺陷,在工作过程中易被堵塞。为

期刊

接头性能混合管充填开采充填料浆管路接头超高水材料局部阻力压煤量田庄煤矿局部能量

各向异性薛定谔方程的扰动分析

本文考虑各向异性薛定谔方程问题{-ε2div(A(x)▽u)+u+V(x)u=|u|p-1u,x∈RN，u→0，|x|→∞，解的存在性。其中，当N=1，2时，p＞1，当N≥3时，1＜p＜N+2/N-2，A(x)是对称矩阵，其元素有界可测。　　

学位

各向异性薛定谔方程扰动方法变分方法临界点

江苏省城市化经济效应分析与研究——基于城市规模、经济密度的实证

本文从城市规模和经济密度两个视角，结合江苏省13个地级市市辖区的统计数据，通过检验城市规模、经济密度对城市生产率的估计值大小，来判断江苏省城市化经济效应是否存在及作用强

学位

城市化经济城市规模经济密度城市生产率位序规模法则面板数据模型

几类中立型不确定时滞系统的保成本控制研究

本文研究了几类中立型不确定时滞系统的保成本控制问题。实际系统中，存在着时滞现象和各种各样的不确定性，从而可能导致系统的不稳定。因此在控制系统中，需要设计一个优质的控制

学位

保成本控制中立型时滞系统不确定性鲁棒稳定性时间记忆状态反馈控制器广义Finsler引理Riccati方程线性矩阵不等式

汉英机器翻译若干关键问题的研究

机器翻译系统具有巨大的社会效益和经济效益,并且随着中国经济的迅速发展和国力的不断增强,汉语正在成为一种新的强势语言而被世人瞩目,因此汉英机器翻译的研究显得越来越重

学位

机器翻译汉英互译句群划分文字处理

Energy dissipation of cavity expansion based on generalized non-linear failure criterion under high

Based on the compression mechanism for analyzing the cavity expansion problem in soil under high stresses,generalized non-linear failure criterion and large str

期刊

energy dissipationenergy conservationlarge straincavity expansionhigh stress

基于偏微分议程的图像去噪算法研究

用偏微分方程进行图像处理始于20世纪90年代,几十年来,以P-M模型为基础,经过众多专家学者的不懈努力,Catte模型、Alvarez-Lions-Morel模型、全变差(TV)模型等很多成熟与高效

学位

图像去噪偏微分方程滤波方法

采油污水水处理技术与发展分析

通过采取油田产出水回注的方式不但能保护环境，还能确保油田可持续开发。本文通过介绍国内外污水处理发展动态综合分析，特别对膜分离技术的应用进行分析和比较。作者认为膜分离

期刊

污水处理生物处理膜过滤

分位数回归中的若干问题研究

与本文相关的学术论文