【摘 要】
:
在数据分类分析中,一些特别的类别里往往存在更重要的信息.提出一种基于集成学习,欠采样和代价敏感的类别不平衡数据分类算法(USCensemble),来解决传统算法处理类别不平衡数据分类任务时难以正确识别少数类样本的问题.该算法首先运用EasyEnsemble的算法结构,在前一组数据训练完毕后,运用欠采样方法选取权重大的多数类样本,并将其与少数类样本结合为临时训练数据以此平衡数据集并进行下一轮训练.同时赋予少数类样本更大的错分代价,快速提高错误分类的少数类的样本权重,降低多数类的样本权重,使算法更倾向少数类的
【机 构】
:
广东工业大学数学与统计学院 广东 广州 510520
论文部分内容阅读
在数据分类分析中,一些特别的类别里往往存在更重要的信息.提出一种基于集成学习,欠采样和代价敏感的类别不平衡数据分类算法(USCensemble),来解决传统算法处理类别不平衡数据分类任务时难以正确识别少数类样本的问题.该算法首先运用EasyEnsemble的算法结构,在前一组数据训练完毕后,运用欠采样方法选取权重大的多数类样本,并将其与少数类样本结合为临时训练数据以此平衡数据集并进行下一轮训练.同时赋予少数类样本更大的错分代价,快速提高错误分类的少数类的样本权重,降低多数类的样本权重,使算法更倾向少数类的正确分类,达到对少数类样本正确识别的目的.在10个u c i的数据集生成的分类任务上进行了对比实验,实验结果表明,该算法能更好地识别少数类样本.
其他文献
在拟态存储系统中,当元数据服务执行体产生调度换时,新上线的执行体需要从其他可信的执行体中获取元数据信息,进而实现各个异构执行体间元数据和执行状态的一致性.传统的置信度计算方法主要根据各执行体的历史裁决记录进行计算,不能满足系统运行初期突发调度的情况.提出一种基于执行体历史信息和异构性的置信目标快速构建算法,充分考虑了拟态防御动态异构冗余(Dynamic Heterogeneous Redundancy,DHR)基因,能够更快速并准确地构建执行体地置信度.
2021年,联合国主导的两个网络空间国际治理机制——信息安全开放工作组(Open-Ended Working Group,OEWG)和信息安全政府专家组(Group of Governmental Experts on Information Security,UNGGE)——分别推出了最终报告,但网络空间国际规则制定工作未取得突破性进展,网络空间稳定仍任重道远.为管控网络空间冲突风险,推动构建网络空间的建立信任措施(Confidence-Building Measures,CBMs)成为当务之急.当前,
图像自适应隐写将隐秘信息的嵌入集中在难以建模的区域,使隐写的抗检测性有了很大提升,目前已成为隐写术的主流研究方向.但自适应隐写,无论是信息的嵌入过程还是提取过程的计算复杂度都很高,难以满足实际的应用需求.研究基于STC(Syndrome-Trellis Codes)的图像自适应隐写的快速算法,通过分析STC校验矩阵的结构特点,提出基本行向量的概念,给出计算基本行向量长度的公式.利用矩阵扩展,将大规模的矩阵乘法计算简化为基本行向量的小矩阵乘法计算,降低信息提取过程的计算复杂度;通过分析信息嵌入过程,探索并行
随着物联网、5G技术的不断发展和各类边缘设备的接入和普及,大数据流从边缘设备产生并发挥着重要作用,但其在传输、外包存储的过程中面临着被恶意或偶然修改、删除、伪造等安全隐患.因此,如何确保大数据流的实时可验证性成为关注的焦点.针对边缘计算环境下外包数据流不可信的问题,提出了一种外包数据流动态可验证方法.该方法的核心在于将单、双陷门Hash函数、多分支路径树结构应用到默克尔哈希树中,构成一种不限定分支数的多分支多碰撞陷门认证树结构(MMCAT).实验结果表明,该方案提高了数据流的处理效率,在网络状况不稳定、边
城市热点分布决定了城市的空间结构,为对城市热点进行分析,提出一种基于社交媒体签到数据的城市空间热点分析方法.首先,针对离散化的签到数据进行了时间单元和空间单元的划分,然后对划分后的签到数据进行自相关分析,检验数据的空间聚集特征;之后采用TF-IDF算法挖掘具有空间显著性的高频POI点,以确定该区域的功能划分;最后利用信息熵的概率衡量区域内人群的流动程度.以新加坡2011年1月1日至2012年1月13日的签到数据集为例,进行试验分析.结果表明,新加坡居民的日常活动和新加坡商业中心分结果符合客观事实,反应了居
在身份认证系统中使用honeywords是及时检测口令数据库是否被盗的有效方法.针对现有方法生成的honeywords与真实口令差距大、能够被攻击者轻易识别的问题,提出一种基于轻量级口令攻击模型的honeywords生成方法(Generating Honeywords Using Lightweight Pass-word Attack Models,GHLA),该方法将基于规则的攻击模型和基于概率上下文无关(Probabilis-tic Context-Free Grammars,PCFG)的攻击模型这
针对网络空间作战的特殊性,结合作战计划评估内涵,从可行性、风险度、作战效益及应变性4个方面考虑,分析各因素相互影响关系.基于网络层次分析法建立了网络空间作战计划评估指标体系,运用yaanp软件进行了指标权重计算,探讨了在兵棋推演中的侧重点,为面向兵棋推演的作战计划评估优选奠定了基础.
为克服依靠图像数据进行识别的局限,使用航迹数据和深度学习方法是当前船型识别的热门方案.针对船型识别任务中常用的长短时记忆(Long Short Term Memory,LSTM)网络对航迹数据特征提取的性能饱和问题,提出了一种基于“Four-hot”编码和Transformer-LSTM神经网络模型的船型识别方法.首先将航迹数据编码为“Four-hot”向量形式;然后构建由Transformer编码模块和LSTM网络级联的Transformer-LSTM神经网络模型,用LSTM网络对Transformer
智能问答系统是信息检索的一种新型检索模式.针对现有知识图谱问答系统存在的开放域知识覆盖不全而影响问答质量的问题,提出了一种融合机器阅读理解的知识图谱问答系统构建方法.首先采用Elasticsearch数据库来存储预处理之后的三元组数据,其次利用信息检索技术在知识图谱中对问题相关知识进行检索,并将检索结果拼接成一段自然语言描述,采用XLNet模型进行答案抽取匹配,最后在2019年度第二届中国“AI+”创新创业大赛-自然语言处理技术创新大赛的数据集上进行了实验,其F1值能够达到0.23的指标.实验证明,融合机
随着新概念武器迅速发展,利用热效应原理对目标进行毁伤成为一种重要方式.在对目标热效应毁伤效果进行研究的基础上,提出基于AHP-贝叶斯公式的分析方法,首先从热效应毁伤的角度出发研究目标毁伤机理,再通过层次分析法(AHP)对目标进行分解量化,建立指标体系,然后基于贝叶斯公式进行毁伤概率计算,最后通过算例分析得出目标各分系统、各部位、各毁伤机理作用下的毁伤概率关系,较为全面地反映了热效应毁伤效果,有利于依据结论采取相应的打击或防护策略.