【摘 要】
:
针对类别不平衡的数据分类效果差的问题,本文提出了一种基于簇内样本平均分类错误率的混合采样算法(SA-BER),该算法首先对少数类使用SMOTE算法增加样本数量,然后添加各类别的
【机 构】
:
重庆邮电大学通信与信息工程学院,重庆工程学院
【基金项目】
:
重庆市基础科学与前沿技术研究专项项目(cstc2017jcyj AX0135,cstc2020jcyj-msxm X0636)资助,重庆市教育委员会科学技术研究项目(KJQN201801908)资助,重庆邮电大学科研启动基金项目(A2015-14)资助。
论文部分内容阅读
针对类别不平衡的数据分类效果差的问题,本文提出了一种基于簇内样本平均分类错误率的混合采样算法(SA-BER),该算法首先对少数类使用SMOTE算法增加样本数量,然后添加各类别的部分样本至平衡样本集中,并用平衡样本集训练一个初始的分类器,然后进行多轮迭代,在每一轮迭代中执行:采用K-means算法对多数类剩余的还未用于训练分类器的样本进行聚类,根据分类器对各个簇的簇内样本平均分类错误率,提取出平均分类错误率最大的前几个簇各自的代表点,将其添加至平衡样本集中,同时不放回地随机提取与平衡样本集中新增的多数类样本数量基本相同的少数类样本,并将其添加至平衡样本集中,用平衡样本集重新训练分类器.实验结果表明,SABER算法可以提高对少数类样本的分类性能以及总体的分类性能.
其他文献
在数据挖掘领域中,数据离散化是将一组连续的数值属性转换为离散的标称属性值,并广泛在音频或视频等连续时间信号的预处理中得到应用.据文献考证,离散区间中的不确定性的空白区间被现有研究所忽略.此外,动态的增量数据将使离散区间更加复杂.针对增量数据下离散问题,本文提出了一种基于三支决策的自适应动态区间离散化方法.本文提出的三支离散化方法可以使离散区间的范围随数据的变化而自适应地变化,并提高了对新增量数据进行离散化的效果.利用本文定义的空白区间的概念,可有效提高新数据和原始数据之间融合的效果.实验结果表明,本文的方
序贯三支决策是近年来发展起来的一种新兴粒计算模型,由于其在处理代价敏感问题上的明显优势,已被广泛的应用于诸多领域.为了降低传统静态分类器的分类成本,本文将序贯三支决策的思想引入分类过程中,利用“三分而治”的动态分类策略和多粒度的静态分类器对样本进行差异化处理,进一步考虑粒化过程中虑冗余属性和属性添加顺序对分类结果的影响,通过引入Wrapper特征选择框架对属性进行选择和排序,提出了Wrapper特征选择下的序贯三支分类方法(Wrapper with Sequential three-way class
为了深入了解青海高原地区麦后复种绿肥,翻压、留茬条件下小麦田土壤氨氧化细菌(AOB)和氨氧化古菌(AOA)数量的响应以及微生物群落结构的变化,基于麦后复种绿肥毛叶苕子9 a定位试验,利用荧光定量PCR、高通量测序技术测定土壤氨氧化细菌和古菌数量及微生物群落结构。结果表明:在复种绿肥毛叶苕子的情况下,翻压绿肥可减施化肥30%,绿肥留根茬可减施化肥20%,且小麦、油菜表现为增产;化肥与绿肥毛叶苕子配施,土壤有机质、土壤微生物生物量碳、土壤微生物生物量氮均显著提高,其中处理70%化肥+绿肥翻压最高,提高幅度为1
基于高光谱数据的土壤有机质反演是土壤遥感及精准农业的重要研究内容,然而不同的光谱处理及建模方法使得模型的估算能力及精度差异明显,限制了模型之间的通用性。为了构建陕西省土壤有机质含量估算的最优模型,以陕西省9种主要土壤类型的216个土样的光谱反射曲线和土壤有机质含量为数据基础,将光谱反射曲线进行一阶微分d(R)、倒数对数log(1/R)、倒数对数一阶微分d[log(1/R)]和包络线去除N(R)4种
探究盐胁迫对两种抗性不同苹果砧木垂丝海棠‘9-1-6’(Malus halliana Koehne)和山定子(Malus baccata Borkh)生理特性的影响,解析苹果属资源的抗盐机理。以1 a生垂丝海棠‘9-1-6’和山定子苗为试材,通过盆栽浇灌Hogland营养液的方法,在100 mM NaCl短期(3 d)和长期(40 d)胁迫下,测定光合及荧光参数、抗氧化酶活性和渗透调节物质含量,分析不同抗性苹果砧木响应盐胁迫的生理差异。结果表明:盐胁迫显著降低叶片净光合速率(Pn)、气孔导度(Gs)、蒸腾
随着互联网的迅速发展、移动通信的广泛普及,互联网在人们的社会生活中发挥着越来越重要的作用.然而网络用户的大量增加,却给互联网服务提供商ISP带来了新的问题.ISP必须升级
针对图像特征提取方法提取单一特征不能很好地表示图像的问题,提出了二维线性鉴别分析和协同表示的面部识别方法.该方法首先通过二维线性鉴别分析(Two-Dimensional Linear Discriminant Analysis,2DLDA)分别对训练样本的类间散布矩阵和类内散布矩阵提取特征,之后利用得到的特征重建图像,包括类间虚拟图像和类内虚拟图像.其次,将类间虚拟图像、类内虚拟图像和原始图像利用
以新疆主要低产土壤灌耕风沙土为研究对象,通过2015—2018年的田间定位试验,研究了生物炭不同添加量(0、22.5、67.5、112.5、225.0 t·hm-2)对土壤性质及玉米产量的影响。结果表明:生物炭于2011年一次性施入后,可明显降低土壤的容重,与初始土壤容重1.48 g·cm-3相比,8 a后土壤容重降低至1.18~1.24 g·cm-3;施用生物炭后可以明显增加土壤中全氮、有机质及速效钾的含量,对土壤碱解氮的含量影响不明显,
为了解决长期施用化肥导致土壤质量下降,甜菜产量低,品质差的问题,在甘肃省张掖市甘州区明永镇甜菜种植基地,采用田间试验方法,连续3 a进行了不同比例羊粪与化肥配施对土壤质量及甜菜含糖率和效益影响的研究。结果表明:施用100%羊粪比其他处理有利于改善土壤质量,提高甜菜含糖率,与100%化肥比较,土壤容重、pH值和全盐降低10.45%、15.14%和15.35%,孔隙度和团聚体增加5.29和5.81个百分点,总持水量、CEC、有机质、有机碳和有机碳密度增加10.69%、16.85%、29.90%、29.93%和
针对传统路径规划中未考虑地形因素而引起的移动机器人能耗过多问题,通过假设移动机器人工作环境为非完全平坦地形,提出一种多地形约束条件下的移动机器人路径规划方法.首先,为了表示环境内的不平坦地形,定义了一种2.5维栅格地图,引入半自由栅格与半障碍栅格的概念,将原可通行性系数范围扩增以便移动机器人识别.其次,通过综合地面高差、地面坡度和地表粗糙度3种非平坦地形因素设计总代价函数,将其与可通行性系数对应,