基于随机森林的变量重要性研究

来源 :统计与决策 | 被引量 : 0次 | 上传用户:whitesharke
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对变量进行重要性度量是变量选择的依据.变量选择在复杂数据的统计建模和解释预测中具有广泛的研究背景.基于随机森林算法,文章对回归问题中的最小深度、变量在根节点的分裂频次、置换重要性、节点纯度等变量重要性度量进行了原理阐述,并采用数值模拟研究了各种重要性度量的性能,为新方法的设计提供了基础.
其他文献
利用抽样调查数据对总体参数进行推断通常分为两种途径:一种是基于设计的推断体系;另一种是基于模型的推断体系.基于设计的推断以随机化理论为基础,推断依赖于抽样设计,在大样本下估计量具有无偏性和一致性,但在样本量较小或存在非抽样误差等情况下效率较低.基于模型的推断认为有限总体是一个来自无限超总体的随机样本,推断依赖于模型假设,构建超总体模型具有很大的灵活性,有利于充分利用总体辅助信息并提高估计精度,但在模型假定有误或样本的入样过程不具有无信息性时存在估计误差.如何将两种推断途径相结合,在体现样本对总体代表性的同
文章研究了一阶周期随机系数自回归模型的性质和参数估计问题.首先讨论了该模型均值函数、方差函数以及协方差函数的周期平稳性.其次讨论了当误差服从正态分布时模型参数的估计问题,给出了模型参数的矩估计和最小二乘估计,并通过随机模拟对这两种估计方法进行比较.最后将上述方法用于实际数据的建模拟合分析.结果 表明所提出方法具有较小的误差.
20世纪70年代以来,元话语因其多功能性得到学界的普遍关注和研究,英美学界运用“元话语”这一术语,德国学界多称“元交际”.两者表述不同,其实所指一致.从阐述德国学界关于元交际的理论探讨出发,探讨元交际/元话语作为言外行为标记的实质,并以习近平主席和默克尔总理的新年致辞为语料探究其元话语运用特征,得以发现:德汉语料在元话语运用上具有明显的共性,演讲者都较多运用了人际互动元话语,并较多使用了有助于人际互动、强调观点的读者介入标记、明确表达标记、自我标记和用于组织语篇、解释说明的过渡标记、注释说明标记这些子范畴
海德格尔在1928年的课程《以莱布尼兹为始点的逻辑学的形而上学基础知识》中提出要构建元存在论,以完成他重构形而上学的计划.他尝试通过元存在论来做一个翻转,即:从作为基础存在论的终点的存在理解,转向存在者整体,回到形而上学的存在者层面.在这种翻转中,海德格尔并不是求助于亚里士多德式的“神”或者德国观念论的“大全”来为他的基础存在论进一步奠基,而是意图从基础存在论的世界观念出发对具体的存在者的存在进行阐释,从而建立起伦理学、政治哲学、哲学人类学等等.这个计划最后以失败告终.但是,海德格尔放弃元存在论并不表明这
自20世纪60年代开始,反思传统经济发展模式,提倡保护生态环境,创造更加和谐健康的人居环境的呼声不断高涨.在思想理论层面,人们开始寻求建立一种能够拨正传统经济发展模式的价值理论范式,引导人们思考并正视现有经济发展方式中的不合理性,以改革创新推动经济发展方式的转变,并在价值观层面指导现代经济发展方向的转型,以保证生态环境保护和经济发展能够协调共存.在此情势下,“生态经济学”作为一门新的学科应运而生,生态经济学试图通过透析整体的现代经济发展运转体系,剖析其中存在的问题,并根据人们对生态环境保护的需求,运用新的
期刊
建构文化新业态互联网平台的主体责任是关乎国家治理互联网文化产业体系和治理能力现代化的重大命题.文化新业态互联网平台主体责任的提出,意味着互联网平台及其相关文化业态在角色功能、市场地位、管理方式、行业治理效果等方面均发生了重大变化.文化新业态互联网平台的主体责任应包括意识形态责任、经济责任、社会责任、创新责任、法律责任和道德责任.在推进主体责任建构与治理中,其呈现出包容审慎、整体化治理、聚焦音视频产业、关注个人信息过度收集以及重构互联网伦理等特征.破解文化新业态互联网平台的主体责任建构与治理的障碍,需要厘清
文章基于2013-2019年中国30个省份的面板数据,将区域数字创新分为创新效果与创新效率两大维度,研究政府偏好、财政分权对区域数字创新的影响.结果 显示:政府偏好能够显著提升区域数字创新效果,但对区域数字创新效率的激励作用并不显著;财政分权在政府偏好与区域数字创新之间具有正向调节作用.空间效应检验下,政府偏好对本区域及周边区域数字创新效果产生积极影响,但仅对本区域数字创新效率起到促进作用.而在财政分权调节下,政府偏好对区域数字创新效果与效率的直接效应和空间溢出效应均有明显提升.
为研究我国不同区域数字经济分类规模、时空分异及产业驱动特征,文章在已有研究基础上,将数字经济核算来源细分为数字化赋能设备、数字化赋能服务、数字化交易、数字化媒体这四大类行业增加值,同时构建区域经济数字化驱动特征分析方法,分析了我国区域数字经济分类规模、时空分异与驱动特征.结果 表明:2012-2019年,我国数字经济行业增加值构成中,数字化赋能服务类占比第一,广东、北京、江苏相对占优;第二的为数字化赋能设备类,广东、江苏绝对占优;数字化交易类排第三,山东、广东、江苏、浙江占优;数字化媒体类位居第四,湖南、
异常值检测方法研究是当今数据分析领域的一个热门问题.传统的基于模型的异常值检测方法,往往是先对模型中的参数进行估计,再检测异常值,但是异常值的存在会影响参数估计值,从而使得异常值检测结果不可靠.文章基于线性回归模型,引入异常值识别变量,提出线性均值漂移模型.在进行低维数据异常值检测时,对漂移项施加SCAD惩罚,利用坐标下降算法同时进行参数估计和异常值检测;在进行高维数据异常值检测时,对模型参数和异常值识别变量分别施加SCAD惩罚,利用坐标下降算法同时进行参数估计、变量选择和异常值检测.基于线性均值漂移模型
自《淮南子》将“水冰”之喻引入生死之辨后,王充、张载与船山都对其进行了义理阐释,形成了严密而系统的气学脉络.王充以“水冰”有别喻生死不同:生如水凝为冰,死如冰释为水,生不能不死,如冰不能不释,死后不再有知,如冰释不再为冰.这一说法批判了谶纬迷信的流行泛滥,同时也遗留了宿命论和价值根源缺失问题.张载借“水性”喻人性:水凝冰释而水性不变,人有存亡而人性不灭.人性源于太虚之气的良能妙用,所以是“天人一源”.通过体用论的建构,张载弥补了王充学说的缺陷,但也留下了身心问题有待解决.船山借水之“常体”与“常体”之变喻