大规模数据的随机森林算法

来源 :统计与信息论坛 | 被引量 : 0次 | 上传用户:jl88106
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息技术的高速发展提升了人们生产、收集数据的能力,越来越多的数据呈现出海量化、高维化的特征。这类大规模数据的出现给统计分析带来计算效率方面的挑战。为有效解决计算效率较低的问题,研究者结合“分治”思想提出了一种分析框架,并以随机森林算法为例内嵌其中得到大规模随机森林算法(BLOCK-SDB-RF)。研究者从数据覆盖率及时间复杂度两方面对该算法的优势进行分析,同时通过数值模拟探究了BLOCK-SDB-RF算法的应用效果。数值模拟结果显示:1.随着数据样本量、特征维度的增加,该算法在计算效率上的优势愈发明显;2
其他文献
教育向现代化发展的今天,计算机辅助教育(CAI)软件质量大都不尽理想,如何提高其质量,则是CAI软件设计的焦点问题.本文从课件设计应遵循的原则、课件设计要考虑的个别性差异因素、课
以中观层面的特定产业为研究对象,从产业全局的角度出发,建立了基于专利分析的产业竞争情报分析框架,并以专利分析作为主要手段,在对产业竞争环境分析的基础上,对产业链及其
目的:探讨经皮冠状动脉介入( PCI)术中发生再灌注心律失常( RA)的影响因素与护理。方法:选择急性心肌梗死( AMI)并行PCI治疗的患者192例,其中109例患者在PCI术中发生RA。分析RA发生的
目的:探讨行为分阶段转变理论指导护理干预对腹膜透析相关性腹膜炎的控制作用。方法:选择2010年1月~2011年12月在我院置管并行腹膜透析治疗的患者71例作为对照组,将2012年1月~2
目的:探讨普通人群对青光眼认知度的影响因素,为青光眼知识宣传和防治提供临床依据。方法:选取2012年1月~2013年8月在我院进行体检的821名人群作为研究对象,进行青光眼认知度问
目的:探讨我院自行设计的一种新型自动式扩张钳在妊娠会阴切开缝合手术中的应用效果。方法:选取2011年5月~2012年4月我院行会阴左侧切开缝合手术产妇380例为研究对象,随机等分为
信息技术与课程整合是教育信息化的一个重要组成部分.为了提高教学质量,促进学生学习,加强信息技术与课程整合的研究与应用十分重要.本文基于信息技术与中学物理整合的实践,
模拟电容与模拟电感在集成电路中得到了广泛的应用.本文引入模拟电容与模拟电感模型,对两模型电路作了详细的时频分析和EWB(Electronics Workbench)软件仿真分析.以五阶Butterwo
当(c0,c1,……,cn-1)∈C,码字(,λcn-1c0,……,cn-2)也在C中,则称码C为常循环码;当λ=1时,把C叫做循环码.本文建立了以λ为常数且λ∈F情况下的一套理论.
收入贫困线是贫困研究的起点,也是贫困人口进入和退出的重要识别标准之一。当前中国省份间经济、社会发展并不均衡,地区间价格差异较大,故有必要对国家贫困线进行省份空间调