基于随机森林的高维不平衡数据分类方法研究

来源 :太原理工大学 | 被引量 : 15次 | 上传用户:xuyixinsiboy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息全球化的快速增长,高维不平衡数据广泛存在于我们的现实生活中,如在人脸识别、垃圾邮件检测、图像检索、医疗诊断、入侵检测和生物信息挖掘等方面都存在着大量的高维不平衡数据。如何平衡高维不平衡数据的样本类别,并对数据样本进行分类预测是当今机器学习和数据挖掘领域一个热门的研究方向。随机森林算法是由Breiman首先提出来的,它是一个由多棵决策树集成的学习算法。随机森林因它良好的分类性能受到了大家的广泛关注,随机森林和其它分类算法相比较有一定的算法优势,主要表现在分类精度高、泛化误差小,算法训练速度快而且容易并行化计算等几个方面。但是原始的随机森林针对高维不平衡数据做分类预测时,会出现分类性能降低,算法的复杂度太大等问题。针对原始随机森林在高维不平衡数据分类中存在的问题,本文分别从数据和算法这两个大方面对原始随机森林算法进行优化与改进,本文的主要工作包括以下几个方面:(1)在数据方面提出一种改善数据平衡问题的优化的SMOTE算法—E-SMOTE算法,该算法在SMOTE算法的基础上加以优化,有效的改善了SMOTE算法易导致边界模糊的问题,平衡后的数据有效的缓解了数据的不平衡性对模型的影响。(2)提出一种优化的特征选择方案,该方案建立在特征选择算法的基础上对数据欠取样,以特征的重要性程度和相关度为标准对特征进行筛减,并删除冗余的特征,最后生成新的特征子空间。(3)提出一种优化的随机森林分类模型—加权的随机森林模型,该模型对决策树模型进行加权重组,避免了有些含噪声和边界的数据对随机森林模型的干扰,达到优化模型的目的。
其他文献
分析了新峰一矿矿井水文地质条件,提出了矿井水的防治方案。采取查堵通道、疏水降压措施,确保矿井安全生产。 The hydrogeological conditions of the mine in Xinfeng No.1
本文通过对荣华二采区10
大豆是重要的粮食、油料和饲料作物,是生活生产的重要原料。磷素作为大豆生长发育必不可少的元素之一,在大豆植株的生长发育、产量形成等方面都起着至关重要的作用。国内外学
“明年,退休职工党支部的报纸我来代发吧!”前不久,农一师4团老年文化活动中心负责人王彦祥对正忙碌着的社区工作人员说。已经80岁高龄的王彦祥老人为了让团里的退休职工过上
在某雷达天线伺服系统的设计中应用了ZSZ系统轴角编码器,解决了ZSZ轴角编码器模拟速度量的微弱信号处理问题和数字化轴角编码器的信号采集和远距离传输问题。 The ZSZ system shaft
近年来,随着区域经济的快速发展,金融体系日趋完善,业务范围不断扩大,融资能力大大增强,营业网点不断增加,对从业人员需求不断增加。同时也带来了大量的人才需求,因此很多高
贷款抵押证券是以多个且分散化的贷款作为质押,并采取适当信用增级安排的证券。对发起人和投资者而言,首要问题是要明确贷款抵押证券的风险和价值,这是贷款抵押证券是否能发行成
进入21世纪后,我国的经济得到了迅速的提升,国内的医疗卫生事业也取得了长足的发展。目前,对医疗卫生事业的改革已经进入深水区,国家在不断的健全医疗卫生体制、系统、法律等的同
中国造纸学会报道 按照中国造纸学会2008年度工作计划和五届九次常务理事会的决议,中国造纸学会六届理事会的换届选举工作已经按时启动.
每一次交通的蝶变,城市都经历一次划时代的变化。2016年,长沙市轨道交通版图再添新军,磁浮快线、地铁1号线相继开通试运营,长沙城进入全新的换乘时代。而年底长株潭城际铁路