基于高维回归模型的自适应交叉验证法研究

来源 :深圳大学 | 被引量 : 0次 | 上传用户:sonic0824
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的快速发展,我们面临越来越多的高维数据分析问题.在高维数据分析中,如果模型中引入过多的无关变量,不仅会影响模型的解释性,还会导致模型的预测效果变差.Lasso方法是变量选择中最流行的方法之一,通过引入L1惩罚项,对估计系数进行一定的压缩,将不重要的变量系数估计值压缩至0,从而达到变量选择的效果.后续提出的非凸惩罚回归方法,SCAD方法和MCP方法,近年来在变量选择中也引起了广泛的关注.然而,惩罚项参数的选择严重影响着Lasso这类方法的变量选择效果及参数估计准确性.对于这类惩罚回归方法的参数选择问题,最常用的方法之一便是交叉验证法.已有研究表明,由传统的K折交叉验证法选出来的模型通常会过多地选择无关变量,从而导致假阳性过高.另外,Zhang和Huang(2008)指出,传统的交叉验证法在参数选择上的理论基础目前也是尚未明确的[1].基于交叉验证法,我们提出一种新的参数选择方法,自适应交叉验证法.自适应交叉验证法可以根据数据特点自适应地从交叉验证法的若干折数里选出最优折数,进而使得交叉验证法可以更好地选择Lasso等惩罚回归方法的惩罚项参数,最终更好地完成变量选择和参数估计的任务.为了更深入地了解交叉验证法实现Lasso等惩罚回归方法的参数选择过程,以及更好地完成后续实验的效果比较,本文首先系统性地回顾了 Lasso等惩罚回归方法与交叉验证法的相关研究.进一步,基于Lasso方法的参数选择问题,我们在预测效果和变量选择两个方面对自适应交叉验证法与14种Lasso相关的算法进行比较.为了测试自适应交叉验证法的性能,我们接着完成了自适应交叉验证法在SCAD方法以及MCP方法上的应用.另外,我们对是否使用以及何时使用最小二乘法对已选模型进行重新拟合作出了系统的研究.大量的数值模拟实验以及真实数据实验对自适应交叉验证法与其他方法的优缺点作出了对比,结果显示在大多数情况下,自适应交叉验证法的效果都是超过其他方法的.
其他文献
随着文化产业重要性的凸显,音乐产业作为文化产业的重要组成部分也逐渐受到关注。数字音乐带来了音乐产业的结构性变化,技术创新降低了音乐生产和发行成本,DIY逐渐从文化实践转变为音乐人生存的实用手段,也成为音乐人新的工作方式和可以谋生的音乐职业。本文对DIY音乐人的创意工作和职业道路进行分析,通过分析DIY音乐人的实践过程探究其创意工作的特征、音乐人选择DIY职业道路的原因、以及他们如何建立DIY职业,
学位
目的针对输血前不规则抗体检验的应用价值进行观察与评估。方法研究对象纳入时间段为2021年1月~2021年3月,将符合时间段要求且于我院进行输血治疗900例患者作为研究对象,对病例相关资料进行回顾性分析。900例患者收治入院后保持卧床休息状态,接受输血治疗前抽取患者静脉血液样本5.0ml进行不规则抗体检验。对患者不规则抗体阳性检出率进行观察,同时对不规则抗体检出阳性结果患者主要类型进行分析,并对输血
会议
目的 了解大量输血患者病死率及血液检测指标变化情况,探讨大量输血时不同血液制剂的最佳应用比例,为临床总结大量输血患者的输血方案提供理论依据。方法 回顾性分析简阳市人民医院2020年1月至2021年12月共计122例大量输血患者的临床资料,统计并分析其各项血液成分(包括红细胞悬液、血浆、血小板和冷沉淀等成分)的用量情况及输血前后血液检测指标的变化;同时按死亡组与存活组进行对比。结果 输注的血液成分最
期刊
小域估计是抽样调查领域的一个重要研究方向,国计民生中的很多重要问题都需要采用小域估计方法进行研究,如失业率、犯罪率、残疾率等。小域估计起源于国外,其理论及实际应用研究在国外相对较多,在国内较少,滞后于国际先进水平,因此本文对小域估计的理论与应用进行研究。小域估计的理论研究中,系统地总结了小域估计的基本方法。为解决因小域样本量不足而无法由直接估计得到有效的小域估计值问题,可从扩大样本量和改进估计技术
学位
期权作为一种金融衍生品,它发挥着风险管理、套期保值等重要作用,同时期权定价也是学术界讨论的热点问题。而定价的关键就在于刻画期权标的资产价格的运动过程。布朗运动在描述资产价格运动上有悠久的历史,但是研究发现它不能刻画实际市场中的三个典型特征:收益率分布的非正态、收益率波动率时变、市场的杠杆效应。学者们利用纯跳跃的Levy过程来刻画资产价格的运动过程以及对应资产收益率的非正态特征。本文基于纯跳跃的Bi
学位
在过去的二十年中,非线性网络的研究由于其在描述许多实际系统中状态的相互作用方面的适用性而受到了广泛的研究关注,例如疾病传播、计算机病毒传播、社会行为、智能电网系统、互联网通信.最近,学者们致力于研究不同类型的复杂网络,包括马尔可夫切换网络,有向网络,非线性延迟网络,随机网络等等.复杂网络常受到随机环境的干扰,于是研究者们开始重视随机环境下复杂网络的同步问题.为了使随机网络达到同步,设计一种合理的控
学位
随着环保诉求的流行和泛化,以漂绿广告为代表的企业漂绿行为开始大量涌现,在信息不对称的绿色市场、滞后的环境法规和晦涩的绿色信息等因素的共同发酵下,漂绿现象依旧越演越烈。漂绿现象日益普遍,而国内关于企业漂绿行为的社会认知、监管实践与理论研究均严重滞后,关注并研究漂绿行为势在必行。在企业漂绿日益侵犯公众权益的背景下,研究选择从受众的角度验证其是否能够理解与认同现有的漂绿类型,在此基础上探讨其如何识别企业
学位
在大数据时代,互联网上存在大量的包含投资者情感评论的文本数据,如何准确有效地挖掘这些文本的情感信息已成为行为金融领域的一个研究热点。然而,投资者对于股市观点的文本大多具有口语化、表达比较随意、数据冗余等特点,这给投资者情绪量化分析带来巨大的挑战。因此,本文选取东方财富网股吧中的上证指数评论作为研究对象,基于word2vec构建股市情感词典和基于BERT的方法进行投资者情感的量化分析研究。首先,使用
学位
保险作为转移风险的一种手段,是减轻未来可能出现的风险损失的有效方式,因此在经济的发展中它起到了重要的保障作用.但是随着社会经济的不断发展以及社会活动越来越多样化,未来的风险受到许多内外部因素的共同影响,多种因素带来的风险相互交织给保险行业带来了新的挑战.面对复杂的市场环境,保险公司如何有效地对风险进行度量和控制是目前急需解决的问题.对风险进行量化分析时,需要建立相应的数学模型和选取合适的风险度量指
学位
在对带有测量误差的数据进行回归建模时,如果直接分析观测到的数据,忽略测量误差,那么估计结果往往是有偏甚至不相合的。因此,对于这类问题,我们要用相应的测量误差模型来处理。测量误差模型主要有两种:第一种是具有可加结构的一些测量误差模型;第二种是具有相乘结构的一些测量误差模型,我们称之为扭曲测量误差模型。在本文中,我们主要讨论数据带扭曲测量误差条件下的乘积回归模型。本文研究数据带扭曲测量误差条件下乘积回
学位