基于神经网络的数据类别不平衡问题的研究

来源 :上海工程技术大学 | 被引量 : 0次 | 上传用户:caacmis487
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在机器学习和数据挖掘的研究领域中,分类问题是一个非常重要的组成部分。尽管现有的分类算法在众多实际应用中已经取得了巨大的成功,但是随着研究的深入,发现当数据集中不同类别的样本数量相差很大时,会出现类别不平衡问题。此时,直接使用传统算法得到的决策面,往往会向数量较多的类别偏移,极大的影响了模型的性能,在严重情况下,模型甚至会完全失效。本文的主要研究成果如下:首先,本文提出了一种基于Focal Loss的提升树分类模型,通过分析样本分布中的难分区域的含义,以及难分区域的样本对于解决类别不平衡问题的意义,表明通过关注难分区域的样本可以起到缓解类别不平衡问题的效果。通过提高难分区域的样本的损失在整体损失中的占比,使得模型逐渐收敛到在难分区域的最优决策面附近。此外,本文根据复杂度较高的模型可以用来近似线性模型的思路,将原本广义线性模型中使用的线性模型替换为提升树模型,从而使用提升树来拟合对数几率。为了将Focal Loss融入到提升树中,计算了在提升树的每次迭代中基函数的系数更新公式。然后,本文提出了一种基于EM算法的集成分类模型,在少数类样本上通过EM算法得到高斯混合模型,并提出了混合模型的类簇边界划分方法,获得了更加精准的各向异性的非球形类簇边界,可以更准确地排除对于少数类样本无意义的区域,根据之前划分得到的类簇中的样本不平衡情况,在每个类簇数据集上采取不同的措施训练相应的分类器。对任意样本的进行分类时,使用每个类簇上的分类模型集成判断,将每个类簇上的分类器对样本的分类结果加权后作为样本的最终类别。最后,本文提出了一种基于修正损失函数的不平衡情感分析模型,用于解决情感分析问题中存在的类别不平衡现象。本模型使用Bi-GRU提取语义信息,同时为了反映句子中每个上下文词的权重,引入了Attention机制对Bi-GRU的隐藏层输出重新加权得到新的句向量,并通过Self-Attention提取文档中上下文句子之间对情感极性的影响,最后使用全连接层对句子的情感进行分类。本文对分类模型输出的置信度进一步细化,从剔除这部分置信度过低的样本的角度出发,将置信度的整个区间分为了高置信度区域,低置信度区域以及适宜置信度区域,限制了Focal Loss对低置信度样本的权重提升,降低低置信度样本在整体损失中的占比,从而提升模型的性能。
其他文献
心脑血管疾病是一种发病率较高的血管类疾病,微创介入手术因“恢复快、风险小”的优势被认为是治疗该疾病的最佳方式。血管介入机器人辅助医生实施手术能够有效地避免X线辐射对医生的伤害,减少长期穿着厚重防护服站立的疲劳,并且远程手术可以缓解医疗资源地域不平衡等问题。然而缺乏力反馈是远程手术中的主要挑战,最先进的达芬奇机器人手术系统也无法给外科医生提供力反馈。此外,时延的存在会降低系统实时性,影响医生术中判断
学位
图像出现雾状模糊是一种常见的现象,通常是由摄像机在室外拍摄图片时大气中弥漫的灰尘和薄雾引起的。这些雾状模糊很大程度上降低了户外图片的可见度和对比度,造成了图像细节丢失与色彩失真。而这些低质量的图片使得下一阶段的高级计算机视觉任务,例如语义分割和目标检测变得困难。随着光学成像设备的日益发展,高清图片与视频成为了必然趋势,人们对图片及视频质量的要求也越来越高,针对高清图片及视频的去雾处理成为了非常有意
学位
随着市场经济的发展,企业委托代理问题日渐突出,股权激励作为解决该问题的有效手段,被广泛应用。股权激励通过奖励管理层一定数量的股权,使得管理层从所有者层面做出决策,这样一来委托与代理过程中产生的问题就能减弱。但就我国整体发展而言,在股权激励的应用上仍然缺少经验,导致很多公司的股权激励计划未达到预期效果。本文通过理论与案例分析结合,对股权激励方案的实施效果进行研究,在完善股权激励应用这个维度上发挥出一
学位
随着现代科技的高速发展,纸币、硬币等传统支付方式正在逐渐转变为以银行卡、支付宝、微信等为主的电子支付方式,大多数人已经不再携带纸币进行钱款交易,硬币更是因其易丢失、携带不便的缺点被沉淀在家庭、超市、公交公司等社会团体中,造成了社会资源的浪费。硬币由金属材料制成,单个硬币的制作成本虽然低廉,但大量沉淀的硬币却是不小的金融资源的浪费。为响应国家绿色金融发展的号召理念,本文针对目前硬币大量堆积浪费的问题
学位
当今社会,互联网经济飞速成长的过程中市场竞争也在悄然变得激烈,客户也成为企业生存发展好坏的决定因素,企业中客户的角色和地位也有了巨大转变。对客户精准定位,且成功吸引并获客,并能将存量客户有依据、合理的分类,不仅可以更好的维系企业同客户之间关系,也能实现和谐长久,也为企业成功发展提供前提。电商企业日益崛起繁荣,各门类品类企业店铺也如雨后春笋,供消费者选择,随着电商生态领域内的市场竞争加剧,X电商公司
学位
随着生物医学研究的发展,生物实验的重要性与日俱增。生物信号采集与分析系统由于其功能集成度高、操作便捷、数据分析准确等优点已逐渐成为生物医学实验中不可或缺的设备。因此,为适应设备智能化、网络化需求,本文设计并完成一款多功能生物信号采集与分析系统,主要研究工作如下:1.提出基于自适应免疫-最小一乘的生物阻抗特征参数提取算法。首先,根据生物阻抗特征参数提取方法进行非线性优化;然后,在传统免疫算法基础上,
学位
人工智能的快速发展以及机器人技术的飞跃进步,使得机器人的应用越来越广泛,同时人们对其能力的要求也越来越高,而单个机器人已经满足不了各项需求,多机器人以协作的方式作用就成为了可行的途径。其中,编队控制是一个非常典型的多机器人协作问题,并且多机器人编队已经在军事侦察、货物搬运、空中表演等诸多领域中得到广泛的应用,具有非常好的应用前景与研究意义。本文针对多机器人编队在猎物捕捉、营救行动以及障碍清除等一些
学位
微电网作为一类新型的微型分布式发电系统,其技术的发展表明了传统电网逐渐迈向于智能电网。鉴于微电网可利用多种形式的可再生能源,使得分布式电源的运用更加灵活可靠,因此具有良好的研究前景。一致性算法作为解决一致性问题的出现,广泛地被应用到以工程为背景的科学领域。而随着微电网的兴起,一致性算法越来越多地被运用到微电网中。要确保微电网的技术得以运用,实现微电网的稳定优化运行是根本。本文主要针对独立型微电网,
学位
购物中心因为其包含餐饮、购物、休闲娱乐等多样式的消费体验,一直以来受广大消费者的喜爱。但随着电商的崛起,购物中心逐渐失去自己的主力顾客群,好在如今大数据、5G、智能化等技术迅速发展,购物中心凭借着这些技术,催生出新的零售营销方式,例如全渠道营销、新媒体营销、数字化营销。这些新的营销方式的产生,都反映着购物中心因为自身处于不利状况而展开的自救心态。YH购物中心也不例外,2020年的新冠肺炎疫情,让它
学位
我国国有企业始终在国民经济上扮演着重要角色,而国企的混合所有制改革的最终目标是保值增值、提升市场竞争力。作为中央经济工作会议提出的七大混改领域之一,铁路行业采取了许多混改措施,但进程依然缓慢。2017年铁路混改方案已提上日程,铁路公司希望通过资本市场融资等方式转让或稀释部分国有控股股权,逐步引入民间资本参与铁路公司,降低国家铁路集团有限公司的高负债风险。铁路目前混改的思路是在目前一些已经上市的优质
学位