几种变量选择方法的模拟研究和实证分析

来源 :山东大学 | 被引量 : 0次 | 上传用户：xiaoyu19771121

【摘要】

：

面对高维数据,常规的最小二乘方法不再适用,为了提高模型的可解释性和预测的准确度,变量选择变得很重要。如何高效地从众多的变量中筛选出对因变量有重要作用的若干个变量,是

【作者】

：

高少龙

【出处】

：

山东大学

【发表日期】

：

2014年期

【关键词】

：

变量选择 Lasso Elastic Net SCAD SIS

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

面对高维数据,常规的最小二乘方法不再适用,为了提高模型的可解释性和预测的准确度,变量选择变得很重要。如何高效地从众多的变量中筛选出对因变量有重要作用的若干个变量,是统计学家们考虑的问题。1996年,统计学家Tibshirani提出了重要的Lasso方法,变量选择的大幕由此拉开。此后,相继出现了多种针对高维数据的变量选择方法。常见的有五种,分别是：Lasso、Adaptive Lasso、Elastic Net、SCAD、SIS。前四种方法都是在最小二乘的基础上施加惩罚,以此来控制口的长度。在提出这些方法时,统计学家证明了相关的理论,并进行了数值模拟,有的还与其他方法进行了比较。本文旨在通过数值模拟和实证分析的方法来综合地、全面地比较这五种方法。在数值模拟部分,文章考虑了样本量n与数据维数p的关系、自变量之间的相关性大小等六种情形,比较了几种方法的表现。在实证分析部分,文章引用了急性淋巴性白血病研究的数据和甄别垃圾邮件的研究数据,采用上述五种方法选择变量。对模拟和实证的结果进行分析后,发现这几种方法均能较好地进行变量选择。(1)作为具有里程碑意义的方法,由于其惩罚项的几何性质,Lasso能够把变量的系数朝0压缩,并且恰好会把某些系数变成0。(2)Adaptive Lasso方法对Lasso的惩罚项做了修正,相当于对其惩罚做了加权,它在Lasso的基础上进一步压缩参数,文章的结果表明,该方法选择的模型相对于Lasso的结果更加稀疏,可解释性更强,更为重要的是,该方法满足Oracle性质。(3)Elastic Net是Lasso和岭回归的结合,参数α控制着权重,该方法同时继承了Lasso和岭回归的优点,结果表明,该方法选择的变量比Lasso的多。最重要的是当数据出现组效应时,该方法展现出了它独有的优势,而其他几种方法则失灵了。(4)SCAD降维的效果明显,相对其他方法,通常选择较少的变量,并且最后的估计量满足无偏性、稀疏性、连续性三个性质。(5)SIS则适用于超高维数据的粗略降维,它考虑的是自变量和因变量的相关系数。模拟表明,对于超高维的数据,首先使用SIS降维,然后再使用其余的四种方法,比单独使用这些方法效果要好很多。

其他文献

《3～6岁儿童学习与发展指南》背景下数学集体教学活动再思考

《3—6岁儿童学习与发展指南》的颁布(以下简称《指南》),对幼儿园集体教学活动有一定的指导作用,但幼儿园教师在实施《指南》的过程中也存在一定的误区。幼儿园数学集体教学

期刊

指南数学集体教学游戏化

江苏省跨境资本流动的经济效应——基于空间计量视角的实证分析

随着我国改革开放的不断深入和全球经济一体化进程的持续推进,我国与世界各国之间的经贸往来与合作日益密切,随之而来的跨境资本流动规模不断扩大,对国内经济的影响日渐显著

期刊

跨境资本经济效应空间计量

西咪替丁对十二指肠溃疡患者胃电图的影响

期刊

胃电图十二指肠溃疡

学术创新:压垮学者和学术的第三座大山

<正>如果以"学术创新"作为关键词精确检索,从《中国期刊全文数据库》可以检出上千条相关信息,年年都有新文章在反复强调学术创新这个老掉牙的旧问题。

期刊

学术创新学术研究学术综述学术论文

大疱性类天疱疮患者外周血中Th17、嗜酸性粒细胞及相关因子表达水平的研究

背景和目的：大疱性类天疱疮(Bullous Pemphigoid, BP)是临床上较常见一种自身免疫性表皮下大疱病,该病好发于中老年人,患者大面积水疱、明显瘙痒、糜烂渗出、继发感染,严重影

学位

大疱性类天疱疮Bullous PemphigoidBPTh17IL-17嗜酸性粒细胞EOSEotaxin-2

伤寒学术长春系源流拾遗与大略

东北地区早在"九·一八"事变之前已经形成了深厚的中医文化根基,诞生了地域性的中医群体和代表医家。东北沦陷之后当地中医与推行"废医存药"的日本殖民者抗争,最终使中医得以

会议

长春伤寒学术传承

谈谈《红楼梦》的主线问题

<正> 如同《红楼梦》的主题之尚无定论一样,《红楼梦》的主线也是研究者们长期争论不休的问题。然而,象《红楼梦》这样的长篇叙事作品,应该能理出一条它的结构主线。我以为讨

期刊

宝黛爱情中心线索叛逆者主线问题《红楼梦》

2007年云南宁洱M_S6.4地震震源过程

通过反演全球范围内20个地震台的宽频带波形资料,获得了2007年6月3日在云南宁洱发生的MS6.4地震的矩张量解、震源时间函数和断层面上滑动随时间和空间的变化过程.根据反演结

期刊

云南宁洱地震震源复杂性宽频带波形反演

西安直管公房管理难题破解

直管公房作为重要的城市存量土地及国有资产,目前存在很多亟须解决的问题。需提高直管公房租金,开放直管公房租赁二级市场,完善直管公房用途变更的流程与政策,完善奖惩制度、

期刊

西安直管公房历史沿革现实问题对策建议

2014年10月1日越西M5.0地震震源机制与发震构造分析

2014年10月1日越西M5.0(或M_L5.2)地震发生在川滇块体东边界历史地震强度较低的大凉山断裂带中段。基于四川区域地震台网记录的波形资料,利用CAP(Cut and Paste)波形反演方法

期刊

越西M5.0地震震源机制发震构造大凉山断裂带视应力

几种变量选择方法的模拟研究和实证分析

与本文相关的学术论文