论文部分内容阅读
信息技术的高速发展提升了人们生产、收集数据的能力,越来越多的数据呈现出海量化、高维化的特征。这类大规模数据的出现给统计分析带来计算效率方面的挑战。为有效解决计算效率较低的问题,研究者结合“分治”思想提出了一种分析框架,并以随机森林算法为例内嵌其中得到大规模随机森林算法(BLOCK-SDB-RF)。研究者从数据覆盖率及时间复杂度两方面对该算法的优势进行分析,同时通过数值模拟探究了BLOCK-SDB-RF算法的应用效果。数值模拟结果显示:1.随着数据样本量、特征维度的增加,该算法在计算效率上的优势愈发明显;2