基于旋转平衡森林的不平衡数据分类算法

来源 :计算机工程与设计 | 被引量 : 0次 | 上传用户:zzhcom
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对不平衡数据中的分类问题,提出一种基于旋转森林的改进模型——旋转平衡森林(rotation balanced forest,ROBF).以集成思想为核心,从数据层和算法层相结合的角度出发,针对Safe-Level-Smote方法中存在的模糊类边界问题采取两点改进:安全等级再划分机制;引入约束度不同的控制因子,经改进后得到Hyper-Safe-Level-Smote,将Hyper-Safe-Level-Smote与旋转森林模型相结合得到旋转平衡森林.通过在UCI的6组数据集上将5种算法进行对比,对比结果表明,ROBF算法在保持良好分类准确率的同时,有着更具竞争力的TPR和G-mean.该结果验证了ROBF算法在处理不平衡问题上的有效性.
其他文献
为解决类不平衡和样本重叠问题,提出一种基于分层欠采样和Bi-GRU的恶意行为检测模型(SSU-BG).数据预处理及特征模型的构建;基于欧氏距离算法统计出高频样本的最高密度点及类内平均距离,根据样本分布特点将高频类样本依次划分为稀疏区、稀疏区边界区及稠密区3个区域,根据抽取出样本标签数在稠密区内划分出不同层次圆环,计算每个类的不均衡度,计算其均值作为整个样本的采样比例,按照此时的采样比例在稀疏区边界区的圆环域和稠密区进行分层随机欠采样;将文本向量输入训练好的Bi-GRU模型中.实验结果表明,该模型改善了整体
针对资源受限的移动边缘计算(MEC)卸载问题,提出一种基于遗传算法优化的卸载决策与计算资源分配方法(GAO).建立联合时延、能耗以及卸载费用的系统卸载效益模型,提出最小资源分配阈值;引入改进的遗传算法求解效益最大化问题,针对该问题提出一种两段式的染色体结构和遗传算子.进行仿真实验,对比分析随机卸载决策与平均计算资源分配、全部卸载决策与随机计算资源分配等4种策略,GAO均优于其它策略,提高了系统卸载效益.进行灵敏度分析,该方法在设备数量、传输功率等参数下均具有较好的性能.
为进一步提高随机森林算法分类准确率,提出一种基于决策边界的倾斜森林(oblique forests based on decision boundary,OFDB)分类算法.将决策边界与自适应权重融入随机森林算法框架,采用决策边界作为分裂准则,使原本垂直于数据空间的分裂准则变为倾斜的超平面,有效提高算法对数据空间结构的适应能力.自适应权重改进叶子结点类标号计算方法,有效提高算法对不平衡数据的分类能力.实验结果表明,该算法与随机森林算法相比具有更高的分类准确率与较好的不平衡数据分类能力.
针对KCF算法在跟踪过程中面对复杂场景、尺度变化等问题效果欠佳的问题,提出一个采用KCF跟踪器的特征融合的尺度自适应核相关跟踪算法.提出一种方向梯度直方图和颜色直方图特征的特征融合方法;采用一种含有7个固定尺度因子的尺度池,采用响应最大的尺度更新当下尺度;使用平均相关峰值能量作为模板更新的指标,控制响应更新.将改进算法在OTB-100数据集中与近年来流行跟踪算法进行对比实验,实验结果表明,改进算法在性能上较KCF算法在精度和成功率上分别提高了10.3%和16.3%,可实现目标的鲁棒性跟踪.
为降低厂家因瓶装酒瑕疵带来的不必要损失,提出一种改进的Cascade R-CNN算法模型,对酒瓶瑕疵进行检测.采用基于聚类算法的Anchor生成策略,将多尺度预测的骨干网络用作特征提取,使用感兴趣对齐层取代原先的感兴趣池化层.将改进的模型与其它基于Faster R-CNN和Cascade R-CNN的酒瓶瑕疵检测模型做消融实验,实验结果表明,该模型能够更加准确识别和定位出多类酒瓶瑕疵情况.在检测速度方面虽然略逊于其它模型,但模型检测的准确度达到了79.6%,远高于其它模型.
针对在数据量动态增加的场景下现有的排序算法管理数据导致算法性能大大降低的问题,提出一种16-bit Trie树排序算法.借助邻居节点上存储的链节点指针完成排序,它不仅可以边构建边排序,且引入动态数组可以提高该算法的空间效率.仿真结果表明,传统Trie树支持数据动态更新,但通过遍历Trie树的方式完成排序耗时较多,快速排序算法在数据动态增加时效率低,16-bit Trie树排序算法支持数据动态更新,排序时间明显少于传统Trie树,优于快速排序,这表明16-bit Trie树排序算法在处理海量动态数据时具有突
通过识别机场的业务实体能够帮助管理者在网络舆情中快速定位服务中的痛点问题.旅客评价中存在较多的复杂实体并伴随有数据类别失衡的现象,针对此提出融入集成卷积(E-CNN)和注意力机制(Attention)的实体识别方法.主要利用人工标注和半监督思想结合的方法获取旅客评价的数据集,通过ECNN获取多范围的文本特征信息,由双向长短期记忆网络(BLSTM)获取文本的长依赖特征,使用Attention机制克服数据类别不平衡的缺点.实验结果表明,提出的方法能有效识别民航业务实体,F1值超过其它所对比的模型.
为提高给定置信水平下航段油耗区间预测结果的可靠性和稳定性,提出航段油耗深度学习高质量区间预测算法.通过对初级数据源进行按航段分类、无量纲化等预处理,提高预测结果的可靠性和算法的普适性;通过自适应相关参数、柔和化处理优化损失函数,进一步提高算法的可靠性、稳定性和普适性.训练得到的预测区间覆盖率在设定的置信水平周围,多次训练结果与置信水平的误差不超过1个数据点引起的覆盖率变化;对样本数大于10的、任意分布的航段均能实现区间预测.算法性能分析比较实验结果表明了该算法的有效性,其性能优于其它算法.
针对数字化测量技术,研究基于散乱点云的飞机蒙皮对缝特征识别方法,力求快速定位对缝点并提取其空间特征;建立基于张量投票的点云特征模型,对缝隙点的识别方法进行研究,以多模型拟合技术获取多条拟合直线,进一步通过最小二乘法得到最终拟合直线.分析点云数据的几何信息,利用强化策略加强缝隙特征.实验结果表明,该方法能够有效提取飞机蒙皮对缝的缝隙点,并将其转换为直线模型,高效地进行对缝点的识别.
针对文本信息特征冗余多、噪声大问题,提出基于和声搜索机制的文本特征选择算法.以词频逆文本频率指数为目标函数评估特征词条;在初始文档集中通过和声搜索的记忆考虑、纵向倾角调整和随机选择3种特征选择新解更新规则,迭代搜索最优特征子集;以最优特征子集为基础,以K均值进行文本聚类.利用4种典型文档数据集进行仿真实验,实验结果表明,该算法可以有效降低文本特征维度,聚类准确率更高.