数据不平衡样本合成方法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:lnawxu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据不平衡问题是机器学习领域的一个重要研究课题,指的是数据集类别样本数量不近似相等。数据不平衡处理技术广泛应用于医疗诊断、信用评估、生物信息等领域。数据不平衡问题会造成机器学习模型对不同类别的训练失衡,为降低数据不平衡问题对机器学习分类模型训练的影响,近年很多学者对其进行了深入研究。但是,随着现实场景中更复杂的不平衡数据集出现,数据不平衡研究领域仍然存在着很多的困难与挑战。本研究重点论证了当前数据不平衡领域存在的一些问题,并给出了一种数据不平衡样本合成的过采样算法。主要研究如下:1.针对目前已有数据不平衡技术研究方法,归纳和验证了以下三种数据不平衡研究中存在的问题:类别样本比例对分类模型的影响、样本量级对分类模型的影响、不平衡处理方法对分类模型的影响,为数据不平衡研究提供了理论依据。首先,对数据不平衡问题及其已有解决方法在机器学习分类模型训练中的影响进行了问题归纳。然后,对三种问题进行了实验设计,并阐述了实验过程。最后,根据实验结果分别进行了图表分析以及问题讨论,并给出了实验结论:不同样本量级对分类模型的影响较大,但大样本量的数据集也并不能避免数据不平衡问题;多种不平衡处理方法对SVM、GBDT分类模型在不平衡问题上会提高一定的分类性能。2.针对当前数据不平衡过采样处理算法容易导致模型训练过拟合的问题,给出了一种结合K-means与CTGAN的过采样处理算法。在对上述的数据不平衡问题的归纳与验证实验中发现,目前的数据不平衡过采样算法主要基于随机特征插值方法进行样本合成,然而此类方法在合成的样本数量较多时,很容易造成样本重叠,进而造成模型训练过拟合。K-means CTGAN是从概率分布的角度合成样本,在一定程度上降低了样本合成的重叠率,能够解决模型训练过拟合问题。使用K-means CTGAN算法与四种不平衡处理方法在四个不同类型的不平衡数据集上进行了比较实验。实验结果表明,该方法在F1_score、G_mean评价指标下整体效果优于其他过采样方法。最后,使用K-means CTGAN在房屋贷款问题上进行了数据不平衡处理,并设计与实现了房屋贷款预测系统。
其他文献
随着互联网的迅猛发展,数据量急速攀升,大量的数据无法得到充分利用,如何利用这些数据成为了自然语言处理领域研究的热点。这些数据中主要包含大量的自由文本,如何从这些自由文本中自动抽取出结构化信息成为了信息抽取的关键任务。目前有监督的实体关系抽取研究主要分为流水线的方法(Pipleline Method)和联合抽取的方法(Joint Method)。流水线方法将实体关系抽取视为两个独立的子任务,会产生误
学位
人脸表情识别是社会交往中最具挑战性的任务之一。一般来说,面部表情是人类表达情感和意图的一种自然而直接的方式。人脸表情识别领域中,卷积神经网络发挥了巨大的作用,同时也取得了丰富的成果。随着使用的卷积神经网络层数不断加深,对应的规模也越来越大,导致模型复杂、参数量大、结构不够轻巧。此外,传统的卷积神经网络难以识别面部表情的细微变化,无法准确提取面部表情特征,识别的精准性还有待提升。针对以上问题,具体研
学位
分布式系统凭借优秀的计算能力得到广泛的应用,任务调度是分布式系统尽可能合理的将任务分配到各个处理器上的过程,进而充分利用分布式系统的计算能力提高程序的处理效率。目前分布式环境下任务调度的研究取得了一定的进展,但仍然有许多问题有待进一步研究和解决。本文以独立任务和依赖任务为研究对象,建立了响应式调度模型,改进了任务调度算法,最后将其应用到分布式定时任务系统,达成了减少任务调度完成时间的研究目标。本文
学位
报纸
安全稳定的校园环境是保证师生学习、工作与生活的基础条件。校园安全管理研究已经得到广泛关注,但现行高校校园安全管理模式仍存在管理效率低下和部门协调联动性不足等问题。鉴于此,将网格化管理模式引入到高校校园安全管理中。文章通过梳理高校日常管理机构的设置以及职责划分,结合高校管理模式和运行机制,构建了三级网格化高校校园安全管理队伍、四阶段网格化高校校园安全管理流程、大数据网格化高校校园安全管理信息平台。基
期刊
随着人工智能的发展和网络带宽的增加,大数据的深度学习为信息技术的外延应用提供了更多的契机,可以通过高性能计算获得新的运用,然而海量的数据整理分类和制作报表也成为一项庞大而复杂的工作。通过对现有的报表工具的分析,发现其存在使用繁琐、加载速度慢等一系列问题。本文使用了组件方式进行系统开发,就前端组件间接数据获取方式和渲染卡顿问题进行了综合分析,设计并实现了直接获取数据的组件模型,同时结合前端缓存技术,
学位
随着物联网、信息处理技术及移动通信技术的快速发展,物联网设备工作所需的数据量不断增加,在海量数据中设备无法有效获取对自身有用的信息。当设备正常工作消息请求过多时会出现网络拥塞,消息的主动推送能够有效解决这一问题。物联网设备在朝着智能移动终端方向发展时,其业务特征通常具有计算密集型和时延敏感型的特点。移动边缘计算(Mobile Edge Computing,MEC)技术,弥补了智能终端设备在计算、存
学位
在物联网高速发展的时代,电子投票已经成为用户表达意见的重要工具,并且早已应用于社会生活的各个方面。传统的电子投票主要集中于可信服务器或第三方机构,存在中心化程度高的风险。继而易造成重放攻击、选票篡改或者隐私泄露等威胁,公平性缺陷和隐私泄露严重影响了投票安全性和结果准确性。由于不同的投票机制会涉及不同的偏好数据类型,并且所需的安全属性不同,因此如何基于投票机制的数据特性设计合适的投票方案是值得探索的
学位
数学建模是连接现实世界和数学世界的关键桥梁,是把数学工具引入到实际问题的重要步骤。培养学生的数学建模能力是社会发展的实际需要,并且高中数学知识自身带有建模的属性,由此可见,高中数学建模教学十分必要。高中数学建模教学的教学策略包括:充分应用往年的数学建模竞赛试题;教会学生熟悉数学建模的流程;培养学生数学建模能力。
期刊
随着物联网技术的高速发展和广泛应用,暴露在网络中的物联网设备数量日益增加。物联网网络设备中存在着大量的隐私信息,这些信息一旦被恶意利用,将会对用户安全乃至网络安全造成严重的威胁。保障设备信息安全是保障物联网安全的重中之重,而对设备的准确识别是保障设备信息安全的前提条件。本文依托于国家重点研发计划“物联网终端评测平台关键技术研究及标准化”,以项目中的终端设备自动测试系统为基础,重点研究了接入网络的物
学位