面向数据极度不平衡和类重叠的分类算法

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:q87995210
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据存储能力的日益强大,以及数据生成和收集技术的进步,现实应用中产生并收集了大量的数据。其中,类别分布不平衡数据集广泛存在于各个领域,传统模型应用于不平衡数据分类往往会失效,是因为它们是建立在各类别样本数量相等且误分类代价相同的前提下。如何从类别不平衡数据中挖掘信息并进行模型构建吸引了越来越多研究人员的关注,随之提出了大量针对不平衡数据分类的方法。然而,当面临数据极度不平衡、正负样本重叠严重和噪声多等应用场景时,普通的不平衡处理方法也将失效。本文从数据场景出发,深入研究在极度不平衡数据分类过程会面临的类别偏好问题、信息丢失问题和过拟合问题,分别探索了自步学习理论在不平衡分类领域的应用以及类重叠区域样本的重要性,提出了一种全新的框架——动态自步集成(DAPS),其中主要包括两个重要步骤:(1)通过动态自步采样来最大化挖掘样本信息以防止信息的丢失;(2)为样本施加适当的权重来解决噪声样本和过拟合问题。本文的主要贡献可以概况为以下几点:1.设计了一个用于训练样本选择的动态自步采样机制,它能够在极度不平衡数据中合理有效地对样本进行采样,充分利用样本信息同时避免过拟合问题。使用了一种特殊的衡量指标来权衡样本在不同分类器、不同数据分布之下的难易程度。2.设计了一个处理类重叠和噪声样本的样本加权机制,能够帮助模型识别类重叠区域样本,通过对这部分样本施加不同的权重来加强重要样本学习,削弱噪声样本学习。3.提出了一个全新的动态自步集成框架DAPS。模型主要针对极度不平衡、正负样本重叠严重和噪声多等数据问题,大多数现有的规范分类器(如决策树、随机森林和梯度提升等)都可以集成在模型中。在合成数据集和三个真实世界数据集上的综合实验结果表明,与大量已有模型相比,DAPS模型可以获得较大的精度改进。
其他文献
随着集成电路工艺技术的迅速发展,MOSFET的特征尺寸减小至纳米级,器件功耗逐渐成为制约集成电路发展的主要因素之一。隧穿场效应晶体管(TFET)基于带带隧穿的工作原理,其亚阈值摆幅可以突破MOSFET的60mV/dec的理论限制,在集成电路低功耗方面的优势明显。但是,目前传统的硅基TFET采用少子反型的工作机制,载流子隧穿几率低、隧穿面积不足,导致其导通电流小、开关电流比不高,难以满足实际应用。因
目的:本研究旨在通过观察活血愈肠方对于轻中度溃疡性结肠炎(UC)临床症状及活动性、内镜评分、生活质量等的改善及不良反应等,并与莎尔福(美沙拉嗪肠溶片)进行比较,评价活血愈肠方治疗轻中度UC的有效性及安全性,为活血愈肠方的进一步推广应用提供疗效及安全性依据。方法:从2016年8月至2018年1月,在广东省中医院住院部及门诊部就诊的轻中度UC患者中,纳入符合要求的UC患者20例,随机分组,将符合纳入标
随着信息技术的蓬勃发展,互联网业务量及用户数量急剧增长,当前因特网数据信息的存储模式、共享方式、转发机制、服务质量与用户对网络不断增长的需求已成为当前互联网技术发展的主要矛盾。不同于目前基于IP协议的信息获取方式,未来互联网用户将更多地关注数据信息的内容而不是其所存储的位置。因此,基于数据内容的信息搜索方式将成为未来互联网体系架构的主要特点。作为下一代互联网体系结构的典型代表之一:信息中心网络(I
钢铁企业能源消耗巨大,污染排放严重,节能降耗是实现钢铁企业可持续发展的重要举措。通过协同调度各种能源、资源的合理使用,可以提高能源利用水平,降低能耗。煤气、蒸汽、电力是钢铁企业能源系统中重要的三种二次能源,并且相互之间存在转换,通过研究煤气、蒸汽、电力三种能源的协同转换和优化使用,对于推进钢铁企业节能减排和降低能源成本具有重要的理论指导和实际应用意义。论文主要研究内容如下:首先,分析了钢铁企业能源
高分二号卫星是我国自主研制的高水平民用遥感卫星,通过融合其空间分辨率较高的全色图像和光谱分辨率较高的多光谱图像,能够生成空间分辨率较高的多光谱图像。针对遥感图像融合,由于传统算法存在建模复杂、在光谱信息保持和空间细节增强两方面难以达到较好的平衡、性能受限于引入的先验假设等不足,基于卷积神经网络的研究开始兴起。与传统算法相比,这些研究在光谱信息保持和空间细节增强之间取得了更好的折中。然而,这些研究在
再制造作为循环经济的重要环节,通过各种先进的修复技术将回收的废旧产品恢复到不低于新产品性能的状态,是一种社会、经济、环境三赢的绿色产业,对于应对日益严峻的资源和环境挑战具有重大意义。再制造工艺规划是再制造的关键技术之一,影响了再制造的效率、成本以及再制造产品的质量。回收的废旧零部件因为服役环境的差异性而具有不确定性,需要定制化的修复策略,增加了再制造工艺规划的复杂程度。而且当前的再制造工艺规划很大
随着深度学习技术不断进步,在智能自然语言处理领域的应用也越来越普遍,智能自然语言问答处理系统是智能语言处理领域的一项重要成果,逐渐发展壮大。但是现有的各类智能自然语言问答处理系统,仍然普遍存在过度的依赖于特征分析工程和基于词频的统计特征等的问题,无法捕捉到自然语言文本的上下文相关信息。因此,针对以上的问题,本文将通过结合现有的深度学习方法与自注意力机制对智能问答系统的应用展开深入的研究,具体工作如
近年来,随着我国现代化建设及城市化进程的快速推进与发展,我国公共工程建设步伐日益加快,建设规模庞大,发展速度稳健。经过多年的推进与规范发展,公共工程建设在我国已显示出它独有的规模、活力和价值。同时,公共工程社会风险潜在危机一直存在,大规模快速的发展无形中提高了项目风险,十分不利于产业的可持续发展,若发生突发事件可能扰乱社会公共秩序,诱发群众与政府矛盾,打破原有社会平衡,导致社会系统紊乱、政府公信力
在油田的油井采油过程中,很多过程变量由于技术或成本的问题难以通过在线采集得到。这些过程变量却又关系着油井的采油效率和油液产量,是实现控制及优化石油生产过程的重要参数。为了能够解决生产上的这一问题,采用一种软测量技术对相关过程变量进行预测。软测量技术通过建立辅助变量和目标变量之间的函数关系模型,能够实现利用容易得到的辅助变量来预测难以得到的目标变量的目的。在现阶段的油田生产过程中,对于产出油液的含水
自旋压缩态是多体纠缠态的一种典型例子,它是量子计算,量子通信和量子精密测量等量子技术的重要组成资源,本文以两个空间分离的双模冷原子自旋压缩态为主要研究对象,介绍了其制备方法,同时为了观测到其贝尔关联,提出并分析了几种可以观察到违反Clauser-Horne-Shimony-Holt(CHSH)贝尔不等式的方法。首先,为了制备贝尔关联态,我们利用改变自旋的碰撞来制备一个双模压缩BEC。然后通过控制空