基于组合分位数回归的带有异常值的稳健变量选择

来源 :曲阜师范大学 | 被引量 : 0次 | 上传用户:asijhvherjknvn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
最经典的参数估计方法是最小二乘法(OLS),但是OLS对于异常值是非常敏感的.最小一乘(LAD)和分位数回归(QR)方法对于响应变量重尾分布是稳健的,然而LAD具有任意小的相对效.当随机误差项服从重尾分布时,QR方法相对于OLS方法更加高效.随后,组合分位数回归(CQR)方法对其进行了改进,且CQR方法保持了 QR方法对响应变量重尾分布稳健的优良性质.与此同时,CQR方法也具有QR方法对于解释变量中的异常值比较敏感的缺点.当异常值存在于解释变量中时,CQR方法的拟合效果以及预测效果会受到严重影响.另外,基于惩罚的变量选择由于其简便性以及选择的稳健性一直是近二十多年来的热门课题之一,实际数据中,维数发散情况下变量间多存在多重共线性问题.单水平的变量选择可能会遗漏一些重要变量,为了解决变量间的多重共线性问题需要考虑带有组效应的变量选择方法.本文的创新之处在于提出了一种稳健加权的组合分位数回归(WCQR)方法,对于每个观测值赋予一个权重以降低高杠杆点,抵御解释变量中异常值的影响.其次,本文提出在超高维数据的情况下利用主成分法对数据集进行降维以解决矩阵不可逆问题.结合稳健的WCQR函数和具有组效应的SCAD-L2惩罚,本文提出了基于SCAD-L2惩罚的稳健加权组合分位数回归方法(WCQR-SCAD-L2).在参数维数发散的情况下,WCQR-SCAD-L2方法能够同时实现变量选择和参数估计,并且本文在一般条件下给出了该方法的Oracle性质(稀疏性和渐近正态性)及其严谨理论证明.权重的选择利用了“去污子集”法,但是在超高维情况下“去污子集”法失效,本文提出通过主成分法对数据集进行降维,继而利用“去污子集”法选择权重.模拟过程通过局部二次逼近和MM(Majorize-Minimization)算法实现.模拟结果表明无论随机误差项是否服从重尾分布,解释变量中是否存在异常值,本文所提出方法的表现效果都优于基于SCAD-L2惩罚的组合分位数回归(CQR-SCAD-L2)方法.为了说明本文方法在实际问题中的表现,基于血浆β胡萝卜素数据以及超高维数据运用本文所提出方法以及CQR-SCAD-L2方法拟合模型并进行预测.结果表明,实际问题中在解释变量和响应变量中同时存在异常值时,本文提出的方法表现良好.
其他文献
智能汽车技术发展日新月异,为了满足驾乘人员的安全性、舒适性、娱乐性,汽车上搭载了各种智能辅助系统,如自适应巡航系统、自动泊车系统、胎压监测系统等,导致汽车上的电子电
选择乌鲁木齐市垂直绿化最为常见的四种攀援类植物五叶地锦(Parthenocissus quinquefolia(L)Planch)、葡萄(Vitis vinifera L)、打碗花(Calystegia hederacea Wall)以及圆叶牵牛(Pharb
丙烯作为地位仅次于乙烯的轻质烯烃,附加值高,其下游衍生物的需求量也呈逐年递增的趋势。为了补充蒸汽裂解生产丙烯的缺口,各种专产丙烯的技术受到越来越多的关注。其中烯烃
现阶段,世界范围内均存在着能源匮乏、环境污染等问题,越来越多的国家开始选择低碳发展道路,努力推进可再生能源的发展。其中风电便是极具代表性的一种。风电资源相对而言极为丰富,并且风电设施的建立相对较为简便、灵活。与其他能源类型相比较而言,风力发电是发展较为成熟的一种利用可再生资源的发电技术,拥有更高的发电效率,能够在获得足够电力资源的同时,避免对地球环境的污染与破坏。随着时间推移,我国在风电装机方面,
本研究对采自海南与云南不同市县的橡胶树与相思树上的病原灵芝菌进行了分离和种类鉴定,并对引起橡胶树红根病的病原灵芝菌进行了致病性测定,对引起相思树红根病的病原灵芝菌
我国环境公益诉讼诉前程序逐渐完善,有效节约了司法资源,提高环境问题的处理效率。诉前程序制度是在实践中不断总结经验并进行优化的结果,2012年第二次修订《民事诉讼法》,环
广西扶绥喀斯特地区的黑叶猴(Trachypithecus francoisi)和白头叶猴(T.leucocephalus)属我国珍稀濒危灵长类动物,两者呈隔江相望的分布格局。它们的生理结构相似,食物组成部
研究背景:氧化应激是造成血管内皮细胞生理功能损伤,进而引起高血压、动脉粥样硬化等血管疾病的主要因素之一。心血管疾病中调控氧化应激的相关病理生理机制尚不明确。FAT10作为类泛素家族中的一员,目前发现在自噬、凋亡、炎症、肿瘤等方面均有重要作用。氧化应激的重要参与者线粒体活性氧(mtROS)主要由线粒体呼吸链复合物I、III生成。FAT10对mtROS的具体调节机制尚未见报道,有待进一步研究。研究目的
在哺乳动物中,DNA甲基化(DNA methylation)主要发生在胞嘧啶和鸟嘌呤二核苷酸(CpG)上,它作为真核生物调控基因表达的主要方式之一,在基因转录调控、遗传物质稳定、基因组印记
2018年8月31日《中华人民共和国土壤污染防治法》颁布,对我国土壤污染防治基金制度的建立提出了明确要求。我国因历史原因遗留的土壤污染问题十分严重,而土壤污染防治工作实