通用类别不平衡机器学习:算法、应用与开源软件库

来源 :吉林大学 | 被引量 : 0次 | 上传用户:luming123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在许多现实应用中,机器学习算法面临着数据中类别样本数量不平衡的困难。随着互联网、分布式计算以及边缘计算等领域的快速发展,更多规模庞大、类别极度不平衡且可能包含大量噪声/缺失值的工业数据集不断产生。在面对这种分类任务时,大多数现有的不平衡学习方法都存在性能不佳或计算效率底下的问题。为解决此问题,本文对类别不平衡问题的本质进行更深入地探讨:给学习器带来困难的不仅仅是类别数量不平衡本身,还有嵌入在数据分布中的其他因素,如类别分布重叠会极大地影响数据集的分类难度。考虑这些因素,为了能够在类别不平衡数据上训练无偏、高效且稳健的机器学习模型,本文提出了面向类别不平衡问题的两种新颖的集成学习算法,并在实际的应用场景中验证了它们的有效性。进一步地,本文实现了一个模块化、灵活、易扩展的类别不平衡/长尾机器学习库,以促进该领域研究代码的规范性、结果的可复现性以及在真实世界机器学习任务中的快速应用。本文为此研究领域做出了三项主要贡献:(1)本文提出基于类间平衡与类内平衡的集成学习框架DUBE。本文指出指出在传统类间不平衡定义的基础上,在数据分布中同一类样本之间的差异(类内不平衡)也应当被纳入考虑。有鉴于此,本文提出了一个通用的集成学习框架DUBE以同时进行类间和类内平衡,而不依赖繁重的基于距离的计算,在保持高计算效率的同时也获得了出色的分类性能。(2)本文提出元采样器驱动的最优化不平衡学习框架MESA。本文指出典型的不平衡学习方法包括重采样和重加权,是基于一些启发式的假设而设计的。在假设不成立的复杂任务中,它们往往存在性能不稳定、适用性差和计算成本高等问题。因此,本文提出了元不平衡学习框架MESA,其不依赖于人类直觉设计的策略,而是从数据中自动学习采样策略并直接优化最终性能指标,因此具有杰出的性能和跨任务可转移性。(3)本文实现了不平衡学习算法工具箱IMBENS,其整合实现了16种流行的不平衡集成学习方法及19种重采样方法,并通过高阶抽象、继承和多态保证了软件库的模块化、灵活性、以及易扩展性,以促进相关技术的发展和应用。
其他文献
学位
第一部分人工智能临床决策支持系统与不同年资医生在Ⅰ-Ⅲ期乳腺癌辅助治疗决策中指南遵从情况的对比研究目的:本研究旨在评估人工智能临床决策支持系统和不同年资医生在Ⅰ-Ⅲ期乳腺癌术后辅助治疗决策中对临床指南的遵从情况。一方面,评估不同年资医生间的规范性诊疗的差异现状;另一方面,从规范化的层面评估人工智能临床决策支持系统的决策水平,从而明确其临床应用价值。方法:本研究共纳入Ⅰ-Ⅲ乳腺癌术后辅助治疗阶段患者
随着技术变革的迅猛发展,大数据分析已被应用在了生活、工作等各个领域,税务部门也不例外。大数据分析给税收监管部门带来了更丰富的税收数据分析和更加科学的大数据分析工具,而风险管理的难度也将进一步加大,面临大数据应用所带来的巨大机会与挑战,怎样运用大数据分析提高税收遵从风险管理效果,是目前税务管理人员不得不面临的问题。基于此,文章将大数据分析应用与纳税人遵从风险管理理论有机地融合在一起,阐明本论文选题相
学位
在国家大力推广装配式建筑以及抢修加固工程等特殊需求形势下,一种高效的纳米复合材料应运而生----纳米C-S-H-PCE。纳米C-S-H-PCE作为一种新型纳米复合材料能够有效的提升水泥的早期水化性能,提高混凝土构件的生产效率,提高了装配式建筑的施工进度,也能加快抢修工程的进度使其能够快速恢复。纳米C-S-H-PCE作为一种纳米改性材料对水泥浆体早期的水化行为以及微结构的演变都有直接影响,从而影响水
学位
学位
急性髓细胞白血病(Acute Myeloid Leukemia,AML)是由于血细胞前体的基因改变导致血细胞过度增殖分化从而形成的一类血液疾病。研究表明FLT3激酶突变与AML的发病息息相关。虽然现有的一些FLT3抑制剂能抑制部分FLT3激酶突变,但其长期用药也会引起FLT3激酶继发性耐药突变的产生,因此开发能够克服AML耐药的新型抑制剂具有重要意义。胃肠间质瘤(Gastrointestinal
【裁判要旨】掩饰、隐瞒犯罪所得罪的被告人否认对赃物性质存在主观明知的,可以结合交易的时间、地点、价格、方式等异常因素进行推定。对按行为时市价计算犯罪所得数额明显背离其正常价值的特殊商品,可以收赃或者销赃价格计价。量刑时应当坚持定性与定量相结合、数额与情节并重,与上游犯罪案件的处理相协调。就同一犯罪对象而言,对本犯量刑较轻的,不宜单纯依据数额对赃物犯罪被告人科以更重刑罚。
期刊
学位