稀疏性惩罚似然的多重阈值选择

来源 :东北师范大学 | 被引量 : 0次 | 上传用户:weixin1980
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
确保高预测精度和发现相关预测变量是统计学的两个根本目标[53]。在追求这两个目标的众多方法中,惩罚似然方法应用最为广泛。惩罚似然方法也称为正则化方法,是在似然函数中加入一个惩罚项(也称为正则项),并通过阈值(或称为罚值、正则项系数)的大小来控制似然函数与惩罚函数在目标函数中的比重,起到了使问题的解在模型的拟合精度与稀疏度量之间进行权衡的作用。就如同在机器学习中的监督机学习问题,无非就是“minimize your error while regularizing your parameters”[92],也就是在规则化参数的同时最小化误差。正则项系数的选取直接影响着估计及预测的精度。惩罚似然方法源于上世纪六七十年代A.E.Hoerl提出并和R.W.Kennard系统地发展的岭回归(Ridge Regression),最初是为了解决估计的不适定问题。而从1996 年美国科学院院士 Tibshirani 提出 Lasso(least absolute shrinkage and selection operator),把L1范式作为惩罚项开始,稀疏性惩罚似然成为使用最为广泛的变量选择方法,具有模型选择能力的惩罚函数称为稀疏性惩罚函数。此时正则项系数的选取不单影响着估计精度,而且也影响着模型选择的精度。阈值及正则项系数的选取是惩罚似然和正则化方法的最重要的问题之一,常用的方法有经验或者交叉验证(Cross validation)。交叉验证需要引入额外的数据。而且又因为交叉验证对于单阈值选择时是在一维空间上对该阈值进行遍历,对多阈值进行交叉验证则需要在多维空间上遍历,所以,交叉验证仅能给出统一的正则项系数,如果要对各个变量进行个性化惩罚,那么交叉验证的方法便无能为力了,所以统一惩罚只是人们无奈的选择。统一惩罚相比于个性化惩罚有很多缺点,例如,统一的惩罚下,同一个正则项系数值难以做到估计精度与模型选择精度同时达到最好的效果;统一的惩罚也会给设计阵的量纲选择造成困难。而这些问题在个性化惩罚下都是可以克服的。但是要让个性化惩罚实用化,那就必须有一种与交叉验证不同的、正则项系数能根据数据自适应选取的方法。本文从线性模型着手,给出了一种自适应的稀疏性惩罚似然的多重阈值选择方法。文中,首先探讨了预测的MSEP与估计的MSE之间的关系,指出在一定条件下,MSEP与MSE所对应的最优正则项系数是一致的,接着探讨了给定估计族,达到MSE下界附近的可能性。然后把正则项问题与估计的MSE和模型选择建立起联系,构建了 Global Adaptive Generative Alignment(GAGA)算法,使正则项隐含在估计过程中,从而让估计问题不再受正则项的选取所困扰。GAGA算法不仅是多重阈值的生成方法,也是一个完整的参数估计方法,它几乎不用设置超参数,并且有着良好的理论性质和强力的性能。理论上,本文证明GAGA算法的模型选择相合性及估计在支撑集上的渐近正态性。传统的稀疏性惩罚似然的证明是考察目标函数达到极值时的性质,不考虑这个极值是否能达到,而在n → ∞的假设下,很多细节和问题将被掩盖。与传统方法不同的是,本文精细的刻画了算法执行过程中当前解的性质,在理论上保证了 GAGA算法的实用性能。实验上,首先是数值模拟实验,我们选择了统计领域的自适应Lasso和信号领域的正交匹配追踪(Orthogonal Matching Pursuit,OMP)这两个既有理论保证又应用广泛的优秀算法作为对比算法,通过数万次数值实验,对GAGA算法的性能进行了考察。通过比较实验可知,不论是估计的MSE还是模型选择能力,默认参数的自适应多重阈值GAGA算法,都优于给出最优超参数情况下的自适应Lasso和OMP算法。然后,为了考察GAGA算法针对实际工程问题的处理能力,我们把GAGA算法用在了基于扩展泽尼克衍射理论的光学系统像差检测上,令检测精度大幅度提升。
其他文献
本文主要研究Atiyah-Singer局部指标定理的推广和证明及非交换留数.Atiyah-Singer指标定理作为比较前沿的研究课题,将看似无关的数学两大分支—分析与拓扑—紧密结合起来,同时它也给微分几何,偏微分方程,微分拓扑,算子代数,数论等诸多领域提供了最基本的联系,具有重要的理论和应用价值.Atiyah和Singer在1961年联手解决了 Israel Gel’fand的猜测:用流形的拓扑不
本论文的主要内容分为三部分.第一,研究了5-Hom-Jordan李代数.首先,定义了分裂的正则5-Hom-Jordan李代数和它的根连通.其次,利用它的根连通,给出了最大长度的带有对称根系的单分裂的正则δ-Hom-Jordan李代数的充分必要条件和分裂的正则δ-Hom-Jordan李代数分解成若干单理想的直和的充分条件.第二,研究了Hom-Leibniz代数和Hom-李color代数.首先,定义分
现代应用科学中亟待解决的问题,经过数学建模,一般可以建立起“微分方程模型”,用微分方程或方程组来刻画.而对于这些方程或方程组的求解和分析,往往可以选取适当的状态空间并适当定义算子将微分方程化为抽象空间中的算子方程.这类非线性方程或带随机扰动的非线性方程解的存在性和性质的讨论可以用非线性分析或随机分析的方法来研究.在过去几十年中,这方面的研究方兴未艾.如果说线性数学可以寻求一般理论,进行统一处理;那
随着量子力学的诞生和快速发展,量子及其相关理论不仅在解释物理世界方面起到了重要作用,并且在现代社会进步中也扮演着重要的角色。一方面,随着近年来信息科学和材料科学的飞速发展,如何利用量子力学原理提高信息处理的效率和质量以及设计新型材料成为了现今科技发展的重要方向。另一方面,近年来对实现量子计算的物理系统方面的研究也取得了极大的进展。其中冷原子系统是众多方案中非常有前景的一个。本论文以Majorana
笔者根据蒯向磊等报道,运用中药熏法治疗尖锐湿疣,但将熏法改为湿敷治疗38例尖锐湿疣患者,收到较满意的疗效。报告如下:临床资料 38例患者均为女性,年龄最小者17
期刊
聚类是指按照数据对象本身的特性对其进行分组的过程。它在数据可视化、知识表示和数据挖掘领域中扮演着举足轻重的角色,一直以来,受到统计学家和机器学习研究者的广泛关注。从统计学的观点看,聚类是通过数据建模简化数据的一种方法,其目标是让组内的对象具有很大的相似性,而组间的对象具有很大的相异性。我们可以根据对数据类别信息的了解情况,将聚类方法分成两大类:一类为半监督聚类问题,另一类为无监督聚类问题。前者是在
第一章 总则 第一条(目的)为规范临床研究管理,提高临床研究质量,促进临床研究健康发展,提升医疗卫生机构诊断治疗、预防控制疾病的能力,根据《基本医疗卫生与健康促进法》《科学技术进步法》《执业医师法》《药品管理法》《医疗机构管理条例》《涉及人的生物医学研究伦理审查办法》等有关法律法规,制定本办法。
期刊
本论文的主要内容分为三部分.第一部分的内容是Hom-李型代数的导子.首先,定义了复数域上有限维李color代数的(α,β,γ)-导子.同时,利用给定的复数,推广了李color代数的上循环,并证明了伴随表示的1维扭上循环恰好是李color代数的(α,β,γ)-导子,以及伴随表示的所有2维扭上循环都可以用4个参数来刻画.接下来,研究了n-李超代数的双导子.证明了n-李超代数的双导子所构成的集合为一般线