非均衡分类的集成学习应用研究

来源 :南京信息工程大学 | 被引量 : 7次 | 上传用户:JYCheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
类倾斜分布的数据集广泛存在于现实世界中。在很多领域,针对非均衡分布的分类问题,少数类样本被正确分类的重要程度往往高于多数类样本被正确分类的重要程度。在类倾斜分布数据集的前提下构建非均衡分类模型时,大多经典分类算法都是以训练集具有平衡的类分布或者各类样本具有相同的误分代价为前提建立分类模型,因此,非均衡的类分布在一定程度上造成了这些分类算法性能下降。在这种情况下,少数类样本的信息往往被多数类样本信息所掩盖,导致来自少数类样本的分类错误率远远高于多数类样本。因此,非均衡分类问题的研究愈发受到广泛关注,同时也成为数据挖掘应用领域的热点及难点问题。本文在探讨非均衡分类应用问题之前,首先对非均衡分类问题研究内容和现状进行介绍,从采样方法、分类算法方面展开详细的综述。然后,根据集成学习算法在处理非均衡数据时,较单分类器能够取得更好的性能的优点,进一步探讨了集成学习组合方法对非均衡分类问题的处理情况,并对相关应用进行详细阐述。本文基于集成学习模型对非均衡分类问题有以下两部分应用:第一部分,基于2014年A股沪市1000组上市公司财务数据,使用基于海格林距离的随机森林(Hellinger Distance based Random Forest, HDRF)从 ST股非均衡分类的角度对上市公司财务预警模型构建问题进行研究。基于海林格距离的随机森林能够集成随机森林的差异性以及海林格距离决策树的倾斜不敏感特征,实验中选择了传统随机森林、基于C4. 5决策树为基分类器的Bagging、AdaBoost、旋转森林集成分类器以及基于海林格决策树为基分类器的相应集成分类器作对比实验,实验结果表明基于海林格距离的随机森林集成模型在处理上市公司ST股非均衡分类问题时,在ROC曲线下面积及Fmeasure指标上具有相对更好的综合分类性能,此外海林格距离决策树作为基分类器能够提高集成模型非均衡分类性能。第二部分,拓展了非均衡分类模型的应用。针对客户关系管理领域的客户保持研究,此部分重点讨论了商业银行客户流失问题,将CVParameterSelection应用于支持向量机组合核函数参数寻优,构建了基于EasyEnsemble的Relief-SVM客户流失预测模型,并通过商业银行客户资料数据研究验证了该模型较单一核函数EasyEnsemble-Relief-SVM模型及传统C4. 5决策树为基分类器的Bagging、AdaBoost集成分类器在AUC、Fmeasure指标上均有所提升。因此,在参数寻优前提下组合核函数EasyEnsemble的Relief-SVM客户流失预测模型是一种处理商业银行客户流失分类预测问题的有效方法,不但能够更准确地对潜在流失客户进行预测,同时还兼顾客户整体分类精度,这使得针对流失客户开展客户挽留决策成为可能,最终尽可能达到客户保持的目的。最后,本文对基于集成学习的非均衡分类方法对这两部分应用研究进行了总结,分析不足之处并对未来的研究做了展望,希望能够对经济管理领域中一些非均衡数据开展有效的知识发现。
其他文献
长期以来,庞大的中小微企业群体和数亿征信记录不佳的个人难以通过正规金融机构获取信贷服务,融资成本昂贵、交易手续复杂等难题一直掣肘着普惠金融政策全面落地的进程。以新
针对影响毕业论文资源开发利用的诸多因素,着重从毕业论文的管理体制、传播手段、写作与答辩等方面阐述了如何开发利用毕业论文学术和情报价值的对策。 According to many f
罗非昔布和塞来昔布是非甾体类抗炎药的两种,可以特异性的抑制环氧化酶—2(cyclooxygenase—2,Cox—2),阻止花生四烯酸(arachidonic acid,AA)转化成前列腺素E2(postaglandins E2,
出芽式血管生成是肿瘤血管生成主要方式,其中出芽过程受到多种信号通路和相关分子的调控。新的研究发现,血管内皮细胞除了受VEGF/VEGFR-2诱导转化为尖端细胞出芽外,VEGFR-3也
腕管综合征是由于正中神经在腕管内受卡压,导致桡侧三个半手指疼痛麻木、感觉异常,支配区功能障碍的一组临床症状和体征,失治误治时甚至会出现局部肌肉萎缩和肌无力,严重影响
财政部在2014年颁布了《关于全面推进管理会计体系建设指导意见》,标志着管理会计进入新的纪元,一时间实务界和理论界对管理会计这一课题进行了讨论,让管理会计在实务和理论
身体美学作为当代学术界的研究热点之一,近些年却陷入到了普遍的困境之中:它有助于研究者将研究视野从形而上学拉回到现实存在,却也因将身体的感性维度推得过远而最终流于玄学
晚疫病作为一种毁灭性病害,已严重危害到马铃薯产业的可持续健康发展。本文以马铃薯为研究对象,晚疫病为胁迫条件,高光谱成像技术为技术手段,探索马铃薯晚疫病叶片中多种理化
目的:比较妊娠期肝内胆汁淤积症(ICP)和妊娠合并慢乙肝孕妇胆汁酸升高病例的生化指标及围产结局,以期为临床提供参考。方法:回顾分析2013年12月到2015年11月在上海市公共卫生