高维模型的变量选择与稀疏正则化

来源 :武汉大学 | 被引量 : 2次 | 上传用户:jason008_xu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
变量选择是统计建模中的一个重要环节.为了能够全面地分析问题,人们总是尽可能地收集与研究问题相关的变量.在建模过程中,过多的变量,不仅会使模型变得复杂,而且会降低模型的解释效果和预测能力.因此,变量选择是统计中极其重要的问题.它不仅能够改进模型的效果,而且能够使我们更好地理解数据本身的内在联系.特别是在高维数据中,如何从众多的信息或变量中提取相关的特征,成为统计建模的关键,因而高维数据的变量选择已成为高维数据分析的热点问题之一.高维数据稀疏化的最有效最常用的手段是基于罚函数的稀疏正则化方法,它可以同时进行变量选择和参数估计.因此,高维数据的稀疏正则化方法的研究具有十分重要的理论意义和应用价值.本文从正则化项的构造、正则化参数的选择、算法设计和相关渐进理论的研究等角度研究了高维模型的变量选择问题.本文主要进行的研究工作和取得的成果如下:首先,构造了一种新的罚函数,即分数阶绝对可微(fractional absolute differ-entiable,简记为FAD)凹罚函数用于变量选择和参数估计.理论上证明了基于FAD罚函数的正则化变量选择方法在一定的正则化条件下,满足模型选择的一致性和参数估计的渐进正态性,即Oracle性质.算法上利用局部二次逼近(LQA)算法求解该正则化模型.模拟研究表明FAD正则化方法相比LASSO、SCAD和MCP等变量选择方法具有更小的模型误差和更高的预测精度.其次,针对误差为重尾分布且解释变量中含有被污染数据的线性回归模型,本文提出了加权LAD-SCAD正则化方法.该方法将WLAD估计和SCAD结合达到同时变量选择和参数估计的目的.对于权函数的选择,本文则运用了一种基于“去污子集”的概念来构造权函数.理论方而,首先证明了LAD-SCAD估计在维数p为发散的高维情形下满足Oracle性质;然后给出了WLAD-SCAD估计的理论性质.算法方面,采用局部二次逼近算法,并用BIC准则选择正则化参数.再次,提出了一种指数型罚函数-EXP罚连续的逼近L0正则子.理论上证明了在适当的正则化条件下,基于EXP罚的最小二乘估计在参数个数为发散的高维情形下能够一致的选择正确的模型且参数估计具有渐进正态性.如此同时,针对该罚函数本文提出一种修正的BIC(MBIC)准则选择正则化参数,并证明MBIC准则在具有发散参数的高维情形下能够一致的选择真实模型.算法方面,文中提出了坐标下降(CD)算法和和迭代的LASSO (IRL)算法,这两种算法都能快速有效的选择真实模型.数值模拟和实例分析表明本文提出的方法具有更强的变量选择能力,对参数的估计更精确.最后,论文讨论了高维部分线性模型的变量选择.文中提出了双罚的估计方法,对非参数部分采用基于小波软阀的估计,对参数部分利用SCAD罚方法.模拟结果表明该双罚估计方法能够同时进行变量选择和参数估计,在各种情形下都具有很好的变量选择性能.
其他文献
南海对我国经济发展、资源开发与运输、维护国土完整具有战略性意义,目前我国已在南海海域以吹填方式建设了一系列的岛礁。为维护这些吹填岛礁的整体稳定性,在吹填体外围边缘
区域经济的振兴和发展是现阶段我国经济发展的重要战略目标,而财政正常在作为市场宏观经济调控最主要的措施,则对区域经济的发展产生着积极的促进作用。由于我国现阶段的区域
设计与自然的关系源远流长,中国古代道家思想“天人合一”就是强调人与自然的协调关系,强调人造物与自然世界的渗透和协调共生。而设计则是人造物与自然之间协调共生的指南针
选取CAIDA授权的AS级2003年1月-2007年12月的Skitter数据及2008年1月-12月的Ark数据进行层层深入的对比分析,以说明Internet拓扑探测架构的改变对拓扑探测结果的影响。首先统
在我国第八次基础教育课程改革正如火如荼开展的同时,参考和借鉴他国的课程改革方面的经验显得十分重要.综观当前世界各国的课程管理制度,可以发现主要有中央集权型、地方分
传统的理论教学方式已经不能满足应用经济学的学科教学需要了,向实验教学方式的转变是当前的大势所趋.实验教学将理论知识和实际操作教学有机结合起来,是培养具有一定实际操
中国现在研究财政支出效益的评价属于刚刚开展的时期。笔者在文章中主要以分析财政支出评价工作重要性作为支撑,通过对中国目前财政支出评价系统出现的问题做出研究,同时也提出
民歌是民族文化中的一朵奇葩,是民族文化富有生命的表现,一个没有艺术的民族和社会是不可思议的。艺术与人性中最深层的东西相遇,民歌正是这种深层的、内在的精神的具体表露,
目的:探讨首发精神分裂症患者心电图特征以及定期监测心电图对早期发现抗精神病药物所致心脏副作用的意义。方法:选择2016年5-10月住院治疗的首发精神分裂症患者239例,在治疗
首先,通过核范数与低秩矩阵分解相结合,我们提出了一种混合张量填充模型.为了求解该模型,我们提出了两种算法,即非光滑低秩张量填充(NS-LRTC)和光滑低秩张量填充(S-LRTC).当