基于集成学习和代价敏感的类别不平衡数据分类算法

来源 :信息记录材料 | 被引量 : 0次 | 上传用户：XFJ1988

【摘要】

：

在数据分类分析中,一些特别的类别里往往存在更重要的信息.提出一种基于集成学习,欠采样和代价敏感的类别不平衡数据分类算法(USCensemble),来解决传统算法处理类别不平衡数据分类任务时难以正确识别少数类样本的问题.该算法首先运用EasyEnsemble的算法结构,在前一组数据训练完毕后,运用欠采样方法选取权重大的多数类样本,并将其与少数类样本结合为临时训练数据以此平衡数据集并进行下一轮训练.同时赋予少数类样本更大的错分代价,快速提高错误分类的少数类的样本权重,降低多数类的样本权重,使算法更倾向少数类的

【作者】

：

贺指陈

【机构】

：

广东工业大学数学与统计学院广东广州 510520

【出处】

：

信息记录材料

【发表日期】

：

2022年1期

【关键词】

：

类别不平衡数据分类集成学习欠采样代价敏感

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

一种基于执行体的历史信息和异构性的置信目标快速构建算法

在拟态存储系统中,当元数据服务执行体产生调度换时,新上线的执行体需要从其他可信的执行体中获取元数据信息,进而实现各个异构执行体间元数据和执行状态的一致性.传统的置信度计算方法主要根据各执行体的历史裁决记录进行计算,不能满足系统运行初期突发调度的情况.提出一种基于执行体历史信息和异构性的置信目标快速构建算法,充分考虑了拟态防御动态异构冗余(Dynamic Heterogeneous Redundancy,DHR)基因,能够更快速并准确地构建执行体地置信度.

期刊

网络空间拟态防御拟态分布式存储置信目标选取置信度异构度

国际安全视角下的网络空间“建立信任措施”态势、模式及展望

2021年,联合国主导的两个网络空间国际治理机制——信息安全开放工作组(Open-Ended Working Group,OEWG)和信息安全政府专家组(Group of Governmental Experts on Information Security,UNGGE)——分别推出了最终报告,但网络空间国际规则制定工作未取得突破性进展,网络空间稳定仍任重道远.为管控网络空间冲突风险,推动构建网络空间的建立信任措施(Confidence-Building Measures,CBMs)成为当务之急.当前,

期刊

国际安全网络冲突网络空间治理建立信任措施

快速图像自适应隐写算法

图像自适应隐写将隐秘信息的嵌入集中在难以建模的区域,使隐写的抗检测性有了很大提升,目前已成为隐写术的主流研究方向.但自适应隐写,无论是信息的嵌入过程还是提取过程的计算复杂度都很高,难以满足实际的应用需求.研究基于STC(Syndrome-Trellis Codes)的图像自适应隐写的快速算法,通过分析STC校验矩阵的结构特点,提出基本行向量的概念,给出计算基本行向量长度的公式.利用矩阵扩展,将大规模的矩阵乘法计算简化为基本行向量的小矩阵乘法计算,降低信息提取过程的计算复杂度;通过分析信息嵌入过程,探索并行

期刊

图像自适应隐写STC信息嵌入信息提取失真函数

一种边缘计算环境下的大数据流可验证方案

随着物联网、5G技术的不断发展和各类边缘设备的接入和普及,大数据流从边缘设备产生并发挥着重要作用,但其在传输、外包存储的过程中面临着被恶意或偶然修改、删除、伪造等安全隐患.因此,如何确保大数据流的实时可验证性成为关注的焦点.针对边缘计算环境下外包数据流不可信的问题,提出了一种外包数据流动态可验证方法.该方法的核心在于将单、双陷门Hash函数、多分支路径树结构应用到默克尔哈希树中,构成一种不限定分支数的多分支多碰撞陷门认证树结构(MMCAT).实验结果表明,该方案提高了数据流的处理效率,在网络状况不稳定、边

期刊

可认证数据结构数据流验证陷门哈希函数边缘计算

结合TF-IDF算法和信息熵的城市热点探索r——以新加坡为例

城市热点分布决定了城市的空间结构,为对城市热点进行分析,提出一种基于社交媒体签到数据的城市空间热点分析方法.首先,针对离散化的签到数据进行了时间单元和空间单元的划分,然后对划分后的签到数据进行自相关分析,检验数据的空间聚集特征;之后采用TF-IDF算法挖掘具有空间显著性的高频POI点,以确定该区域的功能划分;最后利用信息熵的概率衡量区域内人群的流动程度.以新加坡2011年1月1日至2012年1月13日的签到数据集为例,进行试验分析.结果表明,新加坡居民的日常活动和新加坡商业中心分结果符合客观事实,反应了居

期刊

TF-IDF信息熵POI城市空间结构

一种基于轻量级口令攻击模型的honeywords生成方法

在身份认证系统中使用honeywords是及时检测口令数据库是否被盗的有效方法.针对现有方法生成的honeywords与真实口令差距大、能够被攻击者轻易识别的问题,提出一种基于轻量级口令攻击模型的honeywords生成方法(Generating Honeywords Using Lightweight Pass-word Attack Models,GHLA),该方法将基于规则的攻击模型和基于概率上下文无关(Probabilis-tic Context-Free Grammars,PCFG)的攻击模型这

期刊

身份认证honeywords口令口令攻击

基于ANP的网络空间作战计划评估指标体系构建

针对网络空间作战的特殊性,结合作战计划评估内涵,从可行性、风险度、作战效益及应变性4个方面考虑,分析各因素相互影响关系.基于网络层次分析法建立了网络空间作战计划评估指标体系,运用yaanp软件进行了指标权重计算,探讨了在兵棋推演中的侧重点,为面向兵棋推演的作战计划评估优选奠定了基础.

期刊

作战计划评估网络空间作战指标体系网络层次分析法

基于“Four-hot”编码和Transformer-LSTM模型的船型识别方法

为克服依靠图像数据进行识别的局限,使用航迹数据和深度学习方法是当前船型识别的热门方案.针对船型识别任务中常用的长短时记忆(Long Short Term Memory,LSTM)网络对航迹数据特征提取的性能饱和问题,提出了一种基于“Four-hot”编码和Transformer-LSTM神经网络模型的船型识别方法.首先将航迹数据编码为“Four-hot”向量形式;然后构建由Transformer编码模块和LSTM网络级联的Transformer-LSTM神经网络模型,用LSTM网络对Transformer

期刊

Four-hot编码船型识别Transformer模型长短时记忆(LSTM)

融合机器阅读理解的知识图谱问答系统设计与实现

智能问答系统是信息检索的一种新型检索模式.针对现有知识图谱问答系统存在的开放域知识覆盖不全而影响问答质量的问题,提出了一种融合机器阅读理解的知识图谱问答系统构建方法.首先采用Elasticsearch数据库来存储预处理之后的三元组数据,其次利用信息检索技术在知识图谱中对问题相关知识进行检索,并将检索结果拼接成一段自然语言描述,采用XLNet模型进行答案抽取匹配,最后在2019年度第二届中国“AI+”创新创业大赛-自然语言处理技术创新大赛的数据集上进行了实验,其F1值能够达到0.23的指标.实验证明,融合机

期刊

自然语言处理问答系统知识图谱机器阅读理解技术

基于AHP-贝叶斯公式的目标热效应毁伤效果分析

随着新概念武器迅速发展,利用热效应原理对目标进行毁伤成为一种重要方式.在对目标热效应毁伤效果进行研究的基础上,提出基于AHP-贝叶斯公式的分析方法,首先从热效应毁伤的角度出发研究目标毁伤机理,再通过层次分析法(AHP)对目标进行分解量化,建立指标体系,然后基于贝叶斯公式进行毁伤概率计算,最后通过算例分析得出目标各分系统、各部位、各毁伤机理作用下的毁伤概率关系,较为全面地反映了热效应毁伤效果,有利于依据结论采取相应的打击或防护策略.

期刊

毁伤机理热效应层次分析法贝叶斯公式

基于集成学习和代价敏感的类别不平衡数据分类算法

与本文相关的学术论文