大规模数据的随机森林算法

来源 :统计与信息论坛 | 被引量 : 0次 | 上传用户：jl88106

【摘要】

：

信息技术的高速发展提升了人们生产、收集数据的能力,越来越多的数据呈现出海量化、高维化的特征。这类大规模数据的出现给统计分析带来计算效率方面的挑战。为有效解决计算

【作者】

：

李扬祁乐聂佩芸

【机构】

：

中国人民大学应用统计科学研究中心,中国人民大学统计学院,中国人民大学统计咨询研究中心,腾讯公司国际业务部

【出处】

：

统计与信息论坛

【发表日期】

：

2020年6期

【关键词】

：

大数据计算效率随机森林分布式计算 big datacomputational efficiencyrandom forestdistributed com

【基金项目】

：

中国人民大学科学研究基金(中央高校基本科研业务费专项资金)研究品牌项目“生物医学大数据的统计方法基础研究”(15XNI011)

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

信息技术的高速发展提升了人们生产、收集数据的能力,越来越多的数据呈现出海量化、高维化的特征。这类大规模数据的出现给统计分析带来计算效率方面的挑战。为有效解决计算效率较低的问题,研究者结合“分治”思想提出了一种分析框架,并以随机森林算法为例内嵌其中得到大规模随机森林算法(BLOCK-SDB-RF)。研究者从数据覆盖率及时间复杂度两方面对该算法的优势进行分析,同时通过数值模拟探究了BLOCK-SDB-RF算法的应用效果。数值模拟结果显示:1.随着数据样本量、特征维度的增加,该算法在计算效率上的优势愈发明显;2

其他文献

如何提高中小学计算机辅助教育软件质量

教育向现代化发展的今天，计算机辅助教育（CAI）软件质量大都不尽理想，如何提高其质量，则是CAI软件设计的焦点问题．本文从课件设计应遵循的原则、课件设计要考虑的个别性差异因素、课

期刊

CAI课件多媒体人机对话教学模式CAI courseware muhimedia man - machine conversation teachin

基于专利分析的产业竞争情报分析框架研究

以中观层面的特定产业为研究对象,从产业全局的角度出发,建立了基于专利分析的产业竞争情报分析框架,并以专利分析作为主要手段,在对产业竞争环境分析的基础上,对产业链及其

期刊

专利分析产业竞争情报产业链技术链

PCI术中发生再灌注心律失常的相关因素分析

目的：探讨经皮冠状动脉介入（ PCI）术中发生再灌注心律失常（ RA）的影响因素与护理。方法：选择急性心肌梗死（ AMI）并行PCI治疗的患者192例，其中109例患者在PCI术中发生RA。分析RA发生的

期刊

经皮冠状动脉介入治疗再灌注心律失常急性心肌梗死影响因素Percutaneous coronary interventionsReperfusion ar

行为分阶段转变理论在腹膜透析相关性腹膜炎控制中的应用

目的：探讨行为分阶段转变理论指导护理干预对腹膜透析相关性腹膜炎的控制作用。方法：选择2010年1月~2011年12月在我院置管并行腹膜透析治疗的患者71例作为对照组,将2012年1月~2

期刊

综合医院体检人群青光眼认知度影响因素分析

目的：探讨普通人群对青光眼认知度的影响因素,为青光眼知识宣传和防治提供临床依据。方法：选取2012年1月～2013年8月在我院进行体检的821名人群作为研究对象,进行青光眼认知度问

期刊

青光眼认知度普通人群GlaucomaCognitionOrdinary people

自制新型自动式扩张钳在会阴缝合中的应用效果研究

目的：探讨我院自行设计的一种新型自动式扩张钳在妊娠会阴切开缝合手术中的应用效果。方法：选取2011年5月～2012年4月我院行会阴左侧切开缝合手术产妇380例为研究对象,随机等分为

期刊

新型自动式扩张钳会阴侧切会阴缝合护理Automatic expansion clamp Episiotomy Perineal suturing Nur

信息技术与中学物理课程整合的探索

信息技术与课程整合是教育信息化的一个重要组成部分.为了提高教学质量,促进学生学习,加强信息技术与课程整合的研究与应用十分重要.本文基于信息技术与中学物理整合的实践,

期刊

信息技术课程物理整合学生informationcoursephysicscombinestudents

模拟电容与电感及其仿真分析

模拟电容与模拟电感在集成电路中得到了广泛的应用．本文引入模拟电容与模拟电感模型，对两模型电路作了详细的时频分析和EWB(Electronics Workbench)软件仿真分析．以五阶Butterwo

期刊

阻抗变换器模拟电容模拟电感EWB仿真分析集成电路impedance convertor simulant capacitance simulant

关于常循环码

当(c0,c1,……,cn-1)∈C,码字(,λcn-1c0,……,cn-2)也在C中,则称码C为常循环码;当λ=1时,把C叫做循环码.本文建立了以λ为常数且λ∈F情况下的一套理论.

期刊

常循环码交换代数理想循环移位线性分组码代数码理论代数结构Common cyclic codesCommutative algebra idealC

精准扶贫下收入贫困线的空间调整研究

收入贫困线是贫困研究的起点,也是贫困人口进入和退出的重要识别标准之一。当前中国省份间经济、社会发展并不均衡,地区间价格差异较大,故有必要对国家贫困线进行省份空间调

期刊

收入贫困线省份空间调整CPD法EKS法income poverty lineprovince spatial adjustmentCPD methodE

大规模数据的随机森林算法

与本文相关的学术论文