分位数回归中的若干问题研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:zhang1118168
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
变量选择在统计分析中是一个很重要的话题,而删失数据在实际生活中也十分常见。本文的主要研究是为变系数模型提供系统的变量选择方法,也为固定删失数据的分位数回归给出一种简单、有效的算法。本文主要工作和结论如下:   (1)、基于自适应LASSO和基函数逼近,为纵向数据的分位数变系数模型提供了一种新的变量选择方法。本文研究一类自适应组LASSO惩罚,允许对每组基函数系数的Lα范数进行惩罚,α≥1。所构造的方法具有变量选择的相合性,且变系数函数的估计量达到了相同光滑条件下的最优收敛速度。数值模拟和两个实际数据分析验证了其有限样本性质。   (2)、基于双重自适应LASSO惩罚和基函数逼近,为变系数模型在最小二乘回归和分位数回归下构造了统一的变量选择方法,同时解决变系数模型的三类变量选择问题:(ⅰ)区分系数为变系数函数和常数的协变量;(ⅱ)选择系数为非零函数的协变量;(ⅲ)选择系数为非零常数的协变量。惩罚估计量在变量选择和常、变系数区分上都是相合的。此外,得到的变系数估计量达到了同样光滑条件下的最优收敛速度,而非零常系数的渐近性质和真实模型下估计量的性质一样。数值模拟和实际数据分析验证了所构造方法的有限样本性质。   (3)、基于LASSO-型惩罚和基函数逼近,为超高维分位数变系数模型构造了一种两步方法来进行降维和变量选择。即使在不相关变量个数以样本量的接近指数级增长时,第一步估计量仍是相合的。该方法可以把模型的维数从超高维降到与真实模型大小接近的阶,且真实模型被包含在所选模型中。第二步对第一步之后被选出来的模型采用自适应LASSO惩罚,具有变量选择的相合性。数值模拟和实际数据分析被用来验证该两阶段方法的有限样本性质。   (4)、固定删失数据的分位数回归已经有很多文献研究,但是现存的方法或者不够稳定,或者需要包含修整或者光滑的复杂步骤,使得估计量的渐近性质很复杂。本文通过对某个子集内的数据进行标准的分位数回归,构造了一个简单的估计量。证明了只要条件删失概率的相合估计达到某一种非参数收敛速度,且满足一定的光滑条件,所得系数估计量能达到与Powell估计量相同的渐近效率,是在固定删失的情况下对现存方法的进一步简化。大量的数值模拟表明所构造的估计量稳定且与其他更精致的方法具有可比性。   本文的结论创新之处:一、本文把现有的变量选择方法推广到了分位数变系数模型之下,丰富了变量选择的结果。二、本文解决了不可导的分位数损失函数与惩罚函数之间的平衡,证明了自适应LASSO的变量选择相合性以及非零系数函数的最优收敛速度。三、在超高维最小二乘回归中存在三个问题:(ⅰ)误差要求是次高斯的,(ⅱ)受异常点影响较大,不够稳健,(ⅲ)只能考虑协变量与条件均值之间的关系,不够系统。本文所研究的分位数变系数模型避免了上述问题,并利用线性规划与经验过程等理论证明了LASSO可以把模型降维到与真实模型接近的阶。四、本文在固定删失数据的分位数回归中简化了现存方法,并证明其估计量达到了Powell估计量相同的渐近效率。   本文方法创新之处:一、利用自适应LASSO和分位数损失函数的凸性,为变系数模型,尤其是在分位数回归中,提供了较为系统的变量选择方法。二、本文先利用LASSO对模型进行降维,再用自适应LASSO进行变量选择,解决了超高维分位数变系数模型的变量选择问题。三、本文为固定删失数据的分位数回归提供了一种简单有效的估计方法。   本文将变量选择方法推广到了分位数变系数模型,同时解决了变系数模型中的三类变量选择问题:(ⅰ)区分系数为变系数函数和常数的协变量;(ⅱ)选择系数为非零函数的协变量;(ⅲ)选择系数为非零常数的协变量。本文还解决了超高维分位数变系数模型的变量选择问题,避免了最小二乘回归的重重限制。本文的方法和结论丰富了变量选择的方法,将有助于生物、金融、基因切片等各个领域中重要变量的选取,以精简模型,提高预测精度。本文提供的简单有效的估计方法,有助于对固定删失数据的特定分位数回归的参数进行估计。  
其他文献
网络的普及,使得人们检索到感兴趣的图像变得更加困难,需要有专门的技术来实现,这就是图像检索技术。图像检索技术是信息检索的一种。图像检索的技术有两类:基于文本的图像检
近年来,信息聚合理论在应用方面取得了举世瞩目的成功。它的理论和方法在医学、经济、管理和军事等诸多领域中得到了广泛的应用。在信息聚合理论中,国内外的众多学者提出了各种
在充填料浆的输送过程中,充填管路接头起着至关重要的作用。某煤矿超高水材料充填开采过程中,前期使用的混合管与充填软管的简易接头因其诸多缺陷,在工作过程中易被堵塞。为
本文考虑各向异性薛定谔方程问题{-ε2div(A(x)▽u)+u+V(x)u=|u|p-1u,x∈RN,u→0,|x|→∞,解的存在性。其中,当N=1,2时,p>1,当N≥3时,1<p<N+2/N-2,A(x)是对称矩阵,其元素有界可测。  
本文从城市规模和经济密度两个视角,结合江苏省13个地级市市辖区的统计数据,通过检验城市规模、经济密度对城市生产率的估计值大小,来判断江苏省城市化经济效应是否存在及作用强
本文研究了几类中立型不确定时滞系统的保成本控制问题。实际系统中,存在着时滞现象和各种各样的不确定性,从而可能导致系统的不稳定。因此在控制系统中,需要设计一个优质的控制
机器翻译系统具有巨大的社会效益和经济效益,并且随着中国经济的迅速发展和国力的不断增强,汉语正在成为一种新的强势语言而被世人瞩目,因此汉英机器翻译的研究显得越来越重
Based on the compression mechanism for analyzing the cavity expansion problem in soil under high stresses,generalized non-linear failure criterion and large str
用偏微分方程进行图像处理始于20世纪90年代,几十年来,以P-M模型为基础,经过众多专家学者的不懈努力,Catte模型、Alvarez-Lions-Morel模型、全变差(TV)模型等很多成熟与高效
通过采取油田产出水回注的方式不但能保护环境,还能确保油田可持续开发。本文通过介绍国内外污水处理发展动态综合分析,特别对膜分离技术的应用进行分析和比较。作者认为膜分离