静态与动态的不平衡分类问题研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:tangdongd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器学习技术与其他产业的加速融合与发展,促进了以物联网、大数据、机器人等产业为代表的自动化和智能化产业集群的形成,成为推动生产生活及经济发展的新动力。机器学习需要大量数据进行模型训练,当机器学习技术被应用到某一具体场景时,往往存在数据类别不平衡现象,即某些类别的数据数量远多于其它一些类别的数据数量。这些样本数量较少的类别(少数类)在实际应用中比较重要,忽略或错误分类这些少数类别的样本可能会导致严重后果,例如错误区分病人为正常人会导致病人错失治疗的机会。然而,现有许多算法面对类别不平衡问题很容易过拟合多数类的样本,从而降低了模型对少数类样本的识别率。所以在实际应用中,必须要考虑类别不平衡问题,在维持对多数类样本的高准确率时,避免错误分类少数类样本。为此,本文针对机器学习中出现的类别不平衡问题,着重研究静态不平衡问题中“缺少一种可以高效量化类别不平衡对学习任务造成负面影响的理论”、动态不平衡问题中“出现概念漂移现象”、“出现新类别”这三个关键问题,旨在深入了解不平衡学习的本质与难点,提高机器学习算法在真实环境中的可用性、准确性、与稳定性,为发展智能社会助力。本文的主要研究内容与主要创新点归纳如下:(1)静态不平衡问题中缺少可以高效量化类别不平衡对学习任务造成负面影响的理论,为此,本文提出一种基于不平衡敏感度的静态不平衡学习方法POSENS(Perturbation-based Over-Sampling ENSemble),可以系统分析和量化静态类别不平衡对不同样本造成的负面影响,为理解不平衡学习难题的本质提供了一个简单有效的工具。此外,利用量化计算得到的信息,提出了新的过采样组合方法,可以合理生成含有效信息的少数类样本以减少新噪声的引入,进一步提高过采样方法的有效性与分类方法的泛化性能。本方法在三十五个数据集上实验并与九个较流行的方法进行比较,大量的实验结果显示本文提出的方法在三个性能指标上可以取得统计上显著更好的效果。(2)针对动态不平衡数据流中常出现类别先验概率改变、概念漂移现象导致模型性能下降这两个难题,本文提出了一种有效的动态不平衡学习方法CWIB(Cost-sensitive Weighting and Imbalance-reversed Bagging)。该算法主要包含两大模块:不平衡反转bagging算法与代价敏感的动态加权机制。针对动态数据流中出现类别先验概率改变这一难题,本文提出了不平衡反转bagging算法,可以在类别先验概率改变时依然保持较高的真阳性率和较低的假阳性率;同时针对动态数据流中由于出现概念漂移而导致模型性能下降这一难题,提出了代价敏感的动态加权算法,可以维持算法的准确度与稳定性。本文将提出的算法与六种对比方法在真实电价数据集上进行实验,大量实验结果显示所提出的算法在四种性能指标上取得统计上显著更好的结果。(3)动态数据流中新类别的出现容易引致类别不平衡问题。针对新类别检测算法存在的对已有类别识别率低、不能很好应对动态变化的不平衡数据环境、维护成本过高且运行时间过长的难点,本文提出一种基于k-近邻的新类别检测方法KNNEND(KNearest Neighbors-based Ensemble for New class Detection)。它利用最近邻组合器缓解不平衡问题的影响以及提高对已有类别的识别率。此外,通过快速动态更新新类别子模型,维护固定数量的新类别子模型,降低了模型维护成本与运行时间,提高了检测算法在真实应用场景下的可用性。
其他文献
【目的】了解老年冠心病患者衰弱现状,分析老年冠心病患者衰弱的影响因素,探讨衰弱对老年冠心病患者短期预后的影响。【方法】应用横断面研究及前瞻性研究方法。采用一般情况
我国测绘市场目前自由竞争与行政指派并存,不规范的市场行为普遍存在,本文在分析测绘市场现状及其原因的基础上,提出规范测绘市场的近期措施和长远对策。
框架-剪力墙结构因其良好的使用空间和二道防线抗震性能,在高层建筑结构中得到广泛应用。为满足建筑功能和采光效果等要求,剪力墙偏置的超限框架-剪力墙结构在实际工程中时有
<正>历史是最好的教科书,百年党史是共产党人的必修课。习近平总书记强调,回望过往的奋斗路,眺望前方的奋进路,必须把党的历史学习好、总结好,把党的成功经验传承好、发扬好
<正> 二十世纪后半叶,社会已经步入信息时代,世界各国的国民经济相继由传统工业经济过渡到现代信息经济,信息产业的发展水平已经成为一个国家综合国力的重要标志。地理信息是
会议
随着在便携式电子器件,光电子学,储能和传感等领域对锂离子电池性能的需求不断增加,1-3纳米硅以其卓越的理论比容量(3579 mAh×g(-1)) 4而备受瞩目。纳米硅可以通过镁还原SiO2制
目前我国政府十分重视利用信息化手段来提升管理服务效率,加快了电子政务坚实步伐。当前文档管理是企事业单位核心业务管理,存在着一些比较明显的问题,分别有文档管理不规范、文件存储杂乱、检索速度缓慢,保密性安全性有待提高、与他人共享不方便、发布和审批流程繁琐导致办公效率低下等。本文主要工作是利用前沿的Spring技术开发政府机关文档管理信息系统,系统地解决这些问题,具体工作如下。本文首先对文档信息化管理涉
在语文教学中,现代文阅读的地位和作用至关重要。从某些层面上来讲,现代文阅读教学决定着语文教学的成败。现代文阅读是语文学科的基础层面,它影响着学生的基本理解能力、阅读能力和语言分析能力。不仅对语文教学影响很大,对各个学科的学习都存在着影响。因此,提高现代文阅读教学的效果和提升学生的现代文阅读能力和思维能力非常重要。本论文主要研究内容为对延吉市六中现代文阅读教学现状进行调查分析,延吉市第六中学的学生生
继"特色小镇"模式之后,2019年浙江省又在国内率先提出"未来社区"的概念。通过梳理浙江省关于未来社区的工作动态和余杭区的数字经济和数字产业优势,对未来社区的概念进行初步
在信息时代,伴随着海量数据获取与存储技术的快速发展,如何从数据中获得有价值的信息和规律成为了许多行业的热点问题。作为人工智能领域的重要分支,机器学习技术融合多学科