随机森林算法处理不平衡数据的改进及其并行化

来源 :广东工业大学 | 被引量 : 14次 | 上传用户:hhy0412
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随机森林(Random Forest)是用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林的每一棵决策树之间是没有关联的.每一棵决策树的建立,采用的是随机有放回采样的过程,然后使用投票的形式进行分类和预测.该算法很好的解决了单分类器在性能上的瓶颈,因此被广泛应用在很多方面.当然,该算法也存在一些有待完善的地方,针对随机森林算法在处理不平衡数据集时运行效率低下的问题,本文提出一种新的处理不平衡问题的方法,同时随着计算量呈现指数值的增长,如何提高预测速度和缩短运行时间,本文根据随机森林算法在构建过程中的特点提出了并行化的思想.本文在详细参考国内外文献的基础上,主要从两个方面对随机森林进行优化.一、对数据预处理的研究,提出一种新的数据预处理方法.针对随机森林算法在处理不平衡数据集方面的缺点和SMOTE算法在选取样本时存在一定的盲目性和容易边缘化的问题,本文结合K-means算法,在SMOTE算法的基础上,提出一种K_SMOTE算法K_SMOTE的主要思想是首先利用K-means方法找出原始负类的中心点,再根据SMOTE得出“新增负类”,将原始数据集中的负类全部替换为“新增负类”,再次利用SMOTE得出“新数据集”.实验结果表明该方法在随机森林算法上分类性能得到提升.二、基于Mapreduce框架的随机森林算法并行化研究.随着现代社会数据量呈指数增长,运用随机森林算法进行分类,不但需要花费大量的时间,而且分类性能也低下.在此背景下,本文根据随机森林构建单棵决策树互相独立的特点,同时结合Hadoop平台的分布式框架Mapreduce思想,提出将随机森林算法基于Mapreduce框架并行研究Mapreduce框架的主要思想是分而治之,将复杂的问题分解成若干个相同的子问题,相应的解决子问题就容易很多.具体到随机森林算法中,分而治之主要体现在,构建单棵决策树的过程的并行化处理,然后将组合构建好的多棵决策树进行投票.实验结果表明并行化的随机森林在时间和效率上都得到改善.
其他文献
经过近几年基础教育体育课程改革的深入,传统的体育评价体系已与新体育课程所需要的新的评价理念不相适应.特别是体育纳入中考科目所带来的思考,促使每一个体育教师的思考,同时
新课程理念下的小学数学教育,不管是在教学内容、教学方式,还是在课堂练习等各个方面都在日益更新和完善.在新课改的理念下,教师的角色也在不断的发生转变,从“工匠型”教师
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
准备活动是小学体育教学中不可缺少的一部分,准备活动完成的好坏,将直接影响基本部分任务的完成,它对增进健康、增强体质、防止伤害事故,掌握体育知识、技术、技能都有重要意义。
本论文由两篇相对独立的文章组成:一、是一般拓扑学中《第一可数T2强半正规绝对闭空间的等价条件》;二、是模糊拓扑学中《Fuzzifying双拓扑空间中的连通性》.现对两篇文章的内
自然选择推动动物的进化,进而形成了动物赖以生存的觅食和生活方式,科学家们正是通过研究自然界的动物群体生活方式来获得解决生活中疑难问题的启发和灵感.研究者们发现,鱼类
由于半黎曼流形中类空超曲面在数学和物理方面的重要意义,一直被众多几何拓扑学家所关注.近年来,关于类空超曲面浸入到半黎曼卷积空间εR×f Mn(ε=±1)中的唯一性的研究吸引了
现阶段随着我国课程教育改革事业的发展,当前高中教育阶段教师更加重视培养学生的探究能力和创新思维能力,通过探究式教学理念实际应用不仅能够适应新时期教育发展的要求也能
现代教学环境下,要求教师创新教学方法,遵循以人为本.尤其是物理课程,作为教育教学重要内容与学科,对学生逻辑思维提升、能力提升具有重要作用.对此,笔者结合实践研究,就物理
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊