论文部分内容阅读
随机森林(Random Forest)是用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林的每一棵决策树之间是没有关联的.每一棵决策树的建立,采用的是随机有放回采样的过程,然后使用投票的形式进行分类和预测.该算法很好的解决了单分类器在性能上的瓶颈,因此被广泛应用在很多方面.当然,该算法也存在一些有待完善的地方,针对随机森林算法在处理不平衡数据集时运行效率低下的问题,本文提出一种新的处理不平衡问题的方法,同时随着计算量呈现指数值的增长,如何提高预测速度和缩短运行时间,本文根据随机森林算法在构建过程中的特点提出了并行化的思想.本文在详细参考国内外文献的基础上,主要从两个方面对随机森林进行优化.一、对数据预处理的研究,提出一种新的数据预处理方法.针对随机森林算法在处理不平衡数据集方面的缺点和SMOTE算法在选取样本时存在一定的盲目性和容易边缘化的问题,本文结合K-means算法,在SMOTE算法的基础上,提出一种K_SMOTE算法K_SMOTE的主要思想是首先利用K-means方法找出原始负类的中心点,再根据SMOTE得出“新增负类”,将原始数据集中的负类全部替换为“新增负类”,再次利用SMOTE得出“新数据集”.实验结果表明该方法在随机森林算法上分类性能得到提升.二、基于Mapreduce框架的随机森林算法并行化研究.随着现代社会数据量呈指数增长,运用随机森林算法进行分类,不但需要花费大量的时间,而且分类性能也低下.在此背景下,本文根据随机森林构建单棵决策树互相独立的特点,同时结合Hadoop平台的分布式框架Mapreduce思想,提出将随机森林算法基于Mapreduce框架并行研究Mapreduce框架的主要思想是分而治之,将复杂的问题分解成若干个相同的子问题,相应的解决子问题就容易很多.具体到随机森林算法中,分而治之主要体现在,构建单棵决策树的过程的并行化处理,然后将组合构建好的多棵决策树进行投票.实验结果表明并行化的随机森林在时间和效率上都得到改善.