几种变量选择方法的模拟研究和实证分析

来源 :山东大学 | 被引量 : 0次 | 上传用户:xiaoyu19771121
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面对高维数据,常规的最小二乘方法不再适用,为了提高模型的可解释性和预测的准确度,变量选择变得很重要。如何高效地从众多的变量中筛选出对因变量有重要作用的若干个变量,是统计学家们考虑的问题。1996年,统计学家Tibshirani提出了重要的Lasso方法,变量选择的大幕由此拉开。此后,相继出现了多种针对高维数据的变量选择方法。常见的有五种,分别是:Lasso、Adaptive Lasso、Elastic Net、SCAD、SIS。前四种方法都是在最小二乘的基础上施加惩罚,以此来控制口的长度。在提出这些方法时,统计学家证明了相关的理论,并进行了数值模拟,有的还与其他方法进行了比较。本文旨在通过数值模拟和实证分析的方法来综合地、全面地比较这五种方法。在数值模拟部分,文章考虑了样本量n与数据维数p的关系、自变量之间的相关性大小等六种情形,比较了几种方法的表现。在实证分析部分,文章引用了急性淋巴性白血病研究的数据和甄别垃圾邮件的研究数据,采用上述五种方法选择变量。对模拟和实证的结果进行分析后,发现这几种方法均能较好地进行变量选择。(1)作为具有里程碑意义的方法,由于其惩罚项的几何性质,Lasso能够把变量的系数朝0压缩,并且恰好会把某些系数变成0。(2)Adaptive Lasso方法对Lasso的惩罚项做了修正,相当于对其惩罚做了加权,它在Lasso的基础上进一步压缩参数,文章的结果表明,该方法选择的模型相对于Lasso的结果更加稀疏,可解释性更强,更为重要的是,该方法满足Oracle性质。(3)Elastic Net是Lasso和岭回归的结合,参数α控制着权重,该方法同时继承了Lasso和岭回归的优点,结果表明,该方法选择的变量比Lasso的多。最重要的是当数据出现组效应时,该方法展现出了它独有的优势,而其他几种方法则失灵了。(4)SCAD降维的效果明显,相对其他方法,通常选择较少的变量,并且最后的估计量满足无偏性、稀疏性、连续性三个性质。(5)SIS则适用于超高维数据的粗略降维,它考虑的是自变量和因变量的相关系数。模拟表明,对于超高维的数据,首先使用SIS降维,然后再使用其余的四种方法,比单独使用这些方法效果要好很多。
其他文献
《3—6岁儿童学习与发展指南》的颁布(以下简称《指南》),对幼儿园集体教学活动有一定的指导作用,但幼儿园教师在实施《指南》的过程中也存在一定的误区。幼儿园数学集体教学
随着我国改革开放的不断深入和全球经济一体化进程的持续推进,我国与世界各国之间的经贸往来与合作日益密切,随之而来的跨境资本流动规模不断扩大,对国内经济的影响日渐显著
<正>如果以"学术创新"作为关键词精确检索,从《中国期刊全文数据库》可以检出上千条相关信息,年年都有新文章在反复强调学术创新这个老掉牙的旧问题。
背景和目的:大疱性类天疱疮(Bullous Pemphigoid, BP)是临床上较常见一种自身免疫性表皮下大疱病,该病好发于中老年人,患者大面积水疱、明显瘙痒、糜烂渗出、继发感染,严重影
东北地区早在"九·一八"事变之前已经形成了深厚的中医文化根基,诞生了地域性的中医群体和代表医家。东北沦陷之后当地中医与推行"废医存药"的日本殖民者抗争,最终使中医得以
<正> 如同《红楼梦》的主题之尚无定论一样,《红楼梦》的主线也是研究者们长期争论不休的问题。然而,象《红楼梦》这样的长篇叙事作品,应该能理出一条它的结构主线。我以为讨
通过反演全球范围内20个地震台的宽频带波形资料,获得了2007年6月3日在云南宁洱发生的MS6.4地震的矩张量解、震源时间函数和断层面上滑动随时间和空间的变化过程.根据反演结
直管公房作为重要的城市存量土地及国有资产,目前存在很多亟须解决的问题。需提高直管公房租金,开放直管公房租赁二级市场,完善直管公房用途变更的流程与政策,完善奖惩制度、
2014年10月1日越西M5.0(或M_L5.2)地震发生在川滇块体东边界历史地震强度较低的大凉山断裂带中段。基于四川区域地震台网记录的波形资料,利用CAP(Cut and Paste)波形反演方法