基于随机森林的不平衡数据分类算法及其并行化研究

来源 :昆明理工大学 | 被引量 : 2次 | 上传用户:ljl640211
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实际应用领域中不平衡数据无处不在,传统的分类算法为了追求总体的分类性能,通常是基于平衡数据分布或者忽略样本中的少数类样本,从而导致少数类样本分类准确率不理想等问题。因此研究和设计有效解决不平衡数据的分类算法,用于提高对少数类样本的分类准确率和分类器的整体性能,具有重要的理论和现实意义。集成分类器算法处理不平衡数据分类问题,可以在一定范围平衡误差。随机森林分类算法属于集成分类器算法的一种,但是当数据处于严重不平衡时,随机森林的分类效果并不明显。而且当数据集包含噪声和冗余特征时,这样构建的随机森林分类模型将会导致分类效果不理想问题。因此针对不平衡数据分类,设计合理的训练基分类器的方法是非常必要的。另外,随着数据规模增大、加之算法给不平衡数据的预处理以及分类器构建等方面带来运算代价,不平衡数据分类效率成为了必须要考虑的问题。随机森林算法在构建多个相互独立且互不相同的决策树和投票决策两个阶段的处理特点比较符合并行化处理的要求和标准。为此,针对分类算法的执行效率问题,论文采用Spark为计算框架,开展基于随机森林的不平衡分类算法的并行化研究工作。论文在介绍选题的研究背景、意义、基本概念及相关技术的基础上,首先进行了大量文献综述,其次,针对不平衡数据分类面临的样本不平衡、少数类样本分类精度低以及分类效率等瓶颈问题,论文结合Spark高效的数据处理能力,提出了一种Spark环境下基于随机森林的不平衡数据集成分类算法。该方法首先依照多数类样本中每类样本的权重以及少数类样本量获得的综合权重进行采样,并与少数类样本中的训练集组成平衡规模的训练数据集;其次,采用基于相关性的特征选择方法选择最优的特征子集,采用加权投票方式对随机森林算法进行改进优化并利用其获得子分类器。最后在Spark环境下,以UCI数据集进行实验验证。实验结果表明论文方法不仅提高了整体分类精度,而且提升了分类效率。
其他文献
本文详细介绍了RFID技术在物流领域的四种应用模式,包括:RFID物流箱、数字化仓储、资产设备管理和智慧物流园区,并对采用RFID技术带来的效果进行了分析。
青年毛泽东所选择和确立的理想信念是毛泽东一生奋斗与实践的价值导向,也是中国共产党“初心”的重要历史表现形态。青年毛泽东的理想信念形成于中国近代局势动荡、思想混乱的年代,在这个大背景下,青年毛泽东从朴素的爱国情怀出发,先后受到了维新派的资产阶级改良思想、资产阶级民主革命思想、激进的民主主义思想和无政府主义思想的影响,最终在学习和实践中选择确立了马克思主义的理想信念。实现共产主义是青年毛泽东理想信念的
随着大数据的爆发,信用卡欺诈检测,银行破产预测和医疗诊断等领域出现越来越多不平衡数据。这些领域中的数据存在严重的不平衡类别,如何提高少数类的分类精度和提升分类器的
感染是心脏外科术后主要的并发症之一,增加患者住院时间和医疗费用,严重者可导致死亡。感染的危险因子包括肥胖、糖尿病、慢性阻塞性肺疾病、术式复杂、手术时间长、机械通气时
在当今教育环境背景下,幼儿美术不仅是一种学习内容,更是一种带有创造性的情境活动。美术活动要尽可能结合幼儿年龄及生活经验,只有这样才能有效激发幼儿美术创造力与想象力
在中国,星巴克咖啡越来越受年轻人的欢迎。星巴克门店作为消费和社交场所,在人们的日常生活中也发挥着越来越重要的作用。消费者习惯于将星巴克与高品质的咖啡豆、顾客私人定制的咖啡、充满异国情调的咖啡店、甚至墨绿色的双尾美人鱼商标联想到一起。然而,这些文化符号所引起的身份认同的混乱和消费观的异化已经成为当今社会值得关注的现象。本文借助鲍德里亚提出的符号消费理论,重点分析两个问题:一是星巴克消费符号对消费者产
<正>想要描述或评论女诗人寒烟及其诗歌,"疼痛"作为关键词之一,是无法回避的。疼痛,在这个世界上司空见惯,把疼痛升华为"诗学",是寒烟诗歌理念的自觉表述。早在2003年出版的
赵薇执导的处女作《致我们终将逝去的青春》具有足够的话题性,票房表现喜人。但如果从电影本体分析,会发现明显的风格杂糅。片名所昭示的感伤、文艺在影片前半段里被观众习见的
试验研究了模铸底吹氩不同气孔直径和单位面积气孔数的透气砖在吹气过程中产生的气泡大小及其分布,测量了气泡直径随吹气流量、浇铸速度和液面高度的变化。试验结果表明,气泡
高空间分辨率气候格点数据集为研究区域气候变化、气候类型迁移以及建立水文模型等提供基础数据。目前中国气象局己发布覆盖中国全境的气候格点数据集,但其空间分辨率较低(0.