一种聚类欠采样策略的随机森林优化方法

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:liaqin18
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对随机森林分类效果受样本集类间不平衡、类内不规则的影响,提出一种聚类欠采样策略的随机森林优化方法。该方法对原始数据大类样本聚类,得到与小类样本个数相同的子类簇;从每个子类簇中随机有放回抽取一个样本与小类样本合并,形成平衡样本集;对平衡样本集进行有放回随机抽样,形成单棵决策树的训练样本集并完成建树;将两次未被抽中的样本作为袋外数据,用于模型测试;重复上述过程多次,形成随机森林。使用10组非平衡数据集进行实验验证,结果表明,该方法在这10组数据集上的分类能力及稳定性均优于传统随机森林。
其他文献
体育产业现时作为一种朝阳产业,拥有着非常大的潜力,体育文化和体育产业之间起着交互作用,二者缺一不可,相辅相成。因此,基于产业融合的背景,需要通过各种有效方法将文化和产业各自具备的特点和优势体现出来,保证二者可以实现创新发展,以此有效推动体育产业能够向着更加深层次方向发展。  我国长期以来一直没有对于文化产业进行规划经营相关概念。直到体育事业开始大力发展,文化产业才慢慢拥有了经营的概念,也是因为这样
本文以不改变方图结构为前提,给出并证明了有关方图尺寸计算的5个定理,构造了基于方图的平面布局专家系统的尺寸推理机,尺寸推理机自带一个存贮定理应用、列方程求解尺寸的启
扭力梁多应用于中小型乘用车及MPV车型的后悬架,由于其兼有独立悬架和非独立悬架的性能,故称为半独立悬架。扭力梁模型搭建方法与仿真精度将直接影响弹性元件的匹配,进而对零
水体中N、P等营养盐含量过多导致的水体富营养化引起浮游藻类大量繁殖,是赤潮、水华形成的重要原因,对水生态系统具有巨大危害。以硫酸铜和西三嗪为代表的化学抑藻剂,短期内
从 广元市利州区宝轮镇出发,行驶30多公里,就到了莲花村。全村5个村民小组,148户586人,贫困户117人,人均年收入不足千元。  2016年,利州区公路养护段干部魏本林被任命为驻村第一书记;2018年,利州区公路养护段干部何远新、利州区发改局干部李露作为帮扶队队员报到;2019年初,四川省纪委挂职广元市利州区委常委、副区长的燕飞挂联该村。在当地村民眼中,这群干部干实事、解难题,打通道、兴产业,
文章介绍了我国镁资源及利用现状 ,分析了在镁资源利用方面和国外存在的差距 ,提出了只有通过技术进步、市场开拓 ,才能使我国逐步由镁资源生产大国转变为镁资源利用强国
我国已成为全球第一大无机盐生产国,并且发展前景广阔。但是,就矿产资源人均占有量而言,仅列世界第53位,要使行业可继续发展,必须走循环经济之路。根据形势分析,文章指出了“十一五
随着产品加工精度的提高,在对精度的感知这个心理学领域里,提高产品的精致程度已经刻不容缓了.通过分析视知觉理论,产品加工精度以及它们之间的联系之后,阐述了感知精度这个
前茬为玉米时,种植大豆,玉米肥料养分残留较多,通过对氮、磷、钾肥在正常施入量基础上进行减施和玉米茬大豆对氮、磷、钾肥需求,探索出三因素对大豆长势和产量的影响。1试验