面向分布极端不平衡数据的分类算法研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:xiaolaohu_521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现实世界的数据,往往存在分布不平衡的现象,在一些实际应用问题中甚至存在极端分布不平衡的情况,在这类问题中重点关注的是少数类样本的分类结果。关于分布极端不平衡数据分类问题的研究,主要分为数据和算法两个角度,其中前者进一步分为采样、特征和代价,后者通常采用的是集成学习方法。本文主要基于贪心的思想,致力于寻找不同方法的最佳组合策略。本文通过实验对比得出深度森林算法在分布极端不平衡数据的分类任务中具有最好的分类效果。为了进一步提升性能,本文主要从采样、特征和代价三个角度研究如何改进深度森林算法,主要工作如下:(1)从采样角度来说,数据重采样是处理不平衡数据分类任务的一种有效方法。本文将混合采样方法与深度森林算法相结合,在使用过采样方法添加少数类样本的同时使用欠采样方法消除噪声样本,从而增加有效的少数类样本信息。实验结果表明该方法相比仅采用过采样或欠采样方法,拥有更好的分类效果。(2)从特征角度来说,数据分布的不平衡往往伴随着特征分布的不平衡,从而导致特征层面的信息分布不均匀,可以使用特征选择方法挑选出合适的特征子集增大少数类样本与多数类样本的区分度。本文基于常见的异常检测算法提取新的特征加入到原始数据中,提出一种基于Top-K贪心改进的特征提取及选择的深度森林算法。实验结果表明该方法在所有方法组合中具备最好的表现。(3)从代价角度来说,代价敏感学习是处理分布不平衡数据的分类问题的常用方法之一。深度森林采用的是级联结构,每一层都包含多个基分类器(通常来说这里的基分类器采用的都是决策树森林)。本文将代价敏感直接学习与深度森林算法相结合,提出一种基于代价敏感的深度森林算法。实验结果表明,引入代价敏感因子的深度森林在分布极端不平衡数据中相比其他的代价敏感方法具备更好的表现。
其他文献
单频窄线宽光纤激光器是一种高精密单纵模超窄线宽的激光光源。由于其具有较低的相位噪声,极窄的频谱线宽以及较长的相干长度等优点,所以它对高精密的震动较为敏感,并且保障了远距离传感的精度。因此单频窄线宽光纤激光器在远距离传感系统、空间激光通信技术、遥感技术以及相干激光雷达系统的高精度成像以及激光遥感的速度和距离探测等多个领域的应用有着重要的意义。目前在空间光通信发射系统以及激光遥感系统应用中其实现的难点
学位
氮化镓(GaN)材料在最近20多年的半导体应用领域大放异彩,与碳化硅(Si C)一并,跻身当今世界第三代宽禁带半导体器件研发的前沿和热点。在传统LED照明、蓝绿光LD的基础上,GaN技术实现形态在科技与产能双驱动下不仅朝Mini/Micro LED显示方向进化,而且在功率、射频器件方面,其大功率、高频、高效表现,也在智能电网、5G通讯、新能源汽车、消费级电源等领域熠熠生辉。GaN基器件的迅猛发展,
学位
聚芴类材料作为有机宽带隙发光的明星分子受到了人们的广泛研究,然而芴9号位上的sp~3碳十分活泼,往往在光照、加热、通电以及潮湿的环境中容易被氧化,从而形成三大绿光带之一的芴酮缺陷。本课题组前期已经设计并合成了抗热氧、抗水氧的共轭纳米聚合物PGDPF,这为目前聚芴类材料稳定性所面临的困境提出了新的解决方案。然而在光氧化研究中,PGDPF表现出较差的光氧化稳定性,本文对PGDPF在光氧化稳定性方面的反
学位
动态磁共振成像是医学上的一种重要成像技术,其对比度高且无电离辐射等优点使其被广泛用于医学上的各种检测场景。由于物理层面的限制,在磁共振成像过程中,信号采集需要消耗很长时间,再加上人体容易进行非自主运动,导致成像的时空分辨率不高,因此动态磁共振成像在临床应用上有所限制。为此,减少扫描时间、加快成像速度是磁共振成像领域的一个重要研究方向。压缩感知能够利用磁共振图像的稀疏特性,以远小于Nyquist采样
学位
随着大数据时代的到来,文本已经成为互联网中最常见的数据形式之一。自然语言处理是人工智能领域的一个重要研究方向,帮助理解人类的文本信息,并且学会如何创作有意义的文本。作为自然语言处理研究的一个新兴课题,文本风格迁移(TST)任务旨在保留文本内容的前提下,对文本的风格进行转换。TST常见的应用场景包括但不仅限于:文本润色、对话系统、诗歌创作等。尽管前人已经在TST任务上进行了较为深入的探索,但是当前的
学位
三维重建技术是获取物体几何形貌的重要手段,基于结构光的三维重建技术因其非接触、高精度、高速度的特性受到广泛关注和研究。本论文研究针对小尺寸物体的结构光三维重建技术,将传统的双目结构光系统中的小孔成像镜头替换成远心镜头,搭建了高精度双目远心结构光三维重建系统,着重探讨双目远心结构光系统中远心相机标定方法、高效编解码设计、立体匹配等关键技术。论文主要研究内容及成果如下:(1)传统远心相机标定方法需要拍
学位
多模态医学图像的融合技术是图像融合技术的一个重要的分支,它是指通过采用某种特定的方式来将两张或者更多来自不同图像模态之间的一组医学图像融合为一张医学图像的过程。由此产生的医学融合图像在图像信息、纹理结构和病变特征方面比传统的单图像模式下的医学融合图像更加完整和丰富,使得临床医生能够显著改善临床诊断和疾病分析。现有医学图像融合算法遇到的典型问题有对比度降低、边缘细节与纹理模糊、颜色失真以及耗时。针对
学位
关系型数据库技术的发展成果逐渐应用到社会各个领域,多样化的业务产品影响着人们的生活。对于分布式系统来说,数据库同步对充分发挥分布式技术本身价值具有极其重要的作用。然而传统的数据库同步方法的应用中数据安全受到侵害的现象频发,对关系型数据库在分布式系统中的应用造成较大的影响。针对传统数据库同步方法中数据隐私、有效性、一致性等方面存在的问题,本文研究实现了基于共识机制的关系型数据库同步方法,论文主要工作
学位
随着现代科技的发展,为降低成本提高生产力,机器人逐渐应用到社会的方方面面。无人系统的空地协同在军事和民用领域有着广泛的应用,如地质勘测、农业信息采集、交通路况信息收集、危险环境搜救、侦察和打击等。以往的无人空地协同系统通信方式有Zigbee协议、数传电台及无线宽带,但在动态环境中通信条件恶劣,任务机器人设备异构,可能出现系统节点之间无法通信的情况。同时,传统通信方式不能达到去中心化,无法实现分布式
学位
表面等离子体共振传感技术因其具有免标记、实时检测以及灵敏度高等优势被广泛应用于传感领域,尤其是近年来生物医学传感的重要性不断凸显,如何提升其传感灵敏度等性能成为研究重点。通过表面等离子体共振技术与局域表面等离子体共振技术相结合有望提升传感性能,同时利用光子晶体光纤的结构和性能优势,本文提出了一种基于金属纳米粒子增强表面等离子体共振的光子晶体光纤传感的方法和结构,研究提升传感性能的规律,具有重要的研
学位