论文部分内容阅读
高维数据中很多特征所含有的分类信息少,面对这些数据,随机森林算法会产生很多分类能力弱的决策树,而其在集成决策树时无法差异化区分每一棵决策树,造成分类能力弱的决策树影响算法整体的分类性能。针对这一问题,提出一种权重树随机森林算法,依据权重对树进行集成,增强分类能力强的树对分类决策的权重,同时削弱分类能力弱的树对分类决策的权重,从而提高整个随机森林的分类决策性能。单机运行模式不能满足高效分类高维数据的需求,开源集群计算框架Spark能够内存缓存,在迭代计算上具有较高的效率,因而将权重树随机森林算法在Spark