非均衡分类的集成学习应用研究

来源 :南京信息工程大学 | 被引量 : 7次 | 上传用户：JYCheng

【摘要】

：

类倾斜分布的数据集广泛存在于现实世界中。在很多领域,针对非均衡分布的分类问题,少数类样本被正确分类的重要程度往往高于多数类样本被正确分类的重要程度。在类倾斜分布数

【作者】

：

从威

【出处】

：

南京信息工程大学

【发表日期】

：

2017年01期

【关键词】

：

非均衡分类集成学习海格林距离决策树海林格距离随机森林算法 EasyEnsemble-Relief-SVM模型组合核函数

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

类倾斜分布的数据集广泛存在于现实世界中。在很多领域,针对非均衡分布的分类问题,少数类样本被正确分类的重要程度往往高于多数类样本被正确分类的重要程度。在类倾斜分布数据集的前提下构建非均衡分类模型时,大多经典分类算法都是以训练集具有平衡的类分布或者各类样本具有相同的误分代价为前提建立分类模型,因此,非均衡的类分布在一定程度上造成了这些分类算法性能下降。在这种情况下,少数类样本的信息往往被多数类样本信息所掩盖,导致来自少数类样本的分类错误率远远高于多数类样本。因此,非均衡分类问题的研究愈发受到广泛关注,同时也成为数据挖掘应用领域的热点及难点问题。本文在探讨非均衡分类应用问题之前,首先对非均衡分类问题研究内容和现状进行介绍,从采样方法、分类算法方面展开详细的综述。然后,根据集成学习算法在处理非均衡数据时,较单分类器能够取得更好的性能的优点,进一步探讨了集成学习组合方法对非均衡分类问题的处理情况,并对相关应用进行详细阐述。本文基于集成学习模型对非均衡分类问题有以下两部分应用:第一部分,基于2014年A股沪市1000组上市公司财务数据,使用基于海格林距离的随机森林(Hellinger Distance based Random Forest, HDRF)从 ST股非均衡分类的角度对上市公司财务预警模型构建问题进行研究。基于海林格距离的随机森林能够集成随机森林的差异性以及海林格距离决策树的倾斜不敏感特征,实验中选择了传统随机森林、基于C4. 5决策树为基分类器的Bagging、AdaBoost、旋转森林集成分类器以及基于海林格决策树为基分类器的相应集成分类器作对比实验,实验结果表明基于海林格距离的随机森林集成模型在处理上市公司ST股非均衡分类问题时,在ROC曲线下面积及Fmeasure指标上具有相对更好的综合分类性能,此外海林格距离决策树作为基分类器能够提高集成模型非均衡分类性能。第二部分,拓展了非均衡分类模型的应用。针对客户关系管理领域的客户保持研究,此部分重点讨论了商业银行客户流失问题,将CVParameterSelection应用于支持向量机组合核函数参数寻优,构建了基于EasyEnsemble的Relief-SVM客户流失预测模型,并通过商业银行客户资料数据研究验证了该模型较单一核函数EasyEnsemble-Relief-SVM模型及传统C4. 5决策树为基分类器的Bagging、AdaBoost集成分类器在AUC、Fmeasure指标上均有所提升。因此,在参数寻优前提下组合核函数EasyEnsemble的Relief-SVM客户流失预测模型是一种处理商业银行客户流失分类预测问题的有效方法,不但能够更准确地对潜在流失客户进行预测,同时还兼顾客户整体分类精度,这使得针对流失客户开展客户挽留决策成为可能,最终尽可能达到客户保持的目的。最后,本文对基于集成学习的非均衡分类方法对这两部分应用研究进行了总结,分析不足之处并对未来的研究做了展望,希望能够对经济管理领域中一些非均衡数据开展有效的知识发现。

其他文献

P2P投资者决策、借款人信息与词语信号

长期以来,庞大的中小微企业群体和数亿征信记录不佳的个人难以通过正规金融机构获取信贷服务,融资成本昂贵、交易手续复杂等难题一直掣肘着普惠金融政策全面落地的进程。以新

学位

网络借贷信息不对称信号理论文本分析调节效应

党校函授生毕业论文资源的开发利用

针对影响毕业论文资源开发利用的诸多因素,着重从毕业论文的管理体制、传播手段、写作与答辩等方面阐述了如何开发利用毕业论文学术和情报价值的对策。 According to many f

期刊

党校函授毕业论文学术和情报价值

环氧化酶-2抑制剂对骨肉瘤肺癌乳腺癌细胞系的抑制作用的试验研究

罗非昔布和塞来昔布是非甾体类抗炎药的两种,可以特异性的抑制环氧化酶—2（cyclooxygenase—2,Cox—2）,阻止花生四烯酸（arachidonic acid,AA）转化成前列腺素E2（postaglandins E2,

学位

环氧化酶-2骨肉瘤乳腺癌肺癌细胞培养

出芽式肿瘤血管生成的分子调控机制

出芽式血管生成是肿瘤血管生成主要方式,其中出芽过程受到多种信号通路和相关分子的调控。新的研究发现,血管内皮细胞除了受VEGF/VEGFR-2诱导转化为尖端细胞出芽外,VEGFR-3也

期刊

尖端细胞柄细胞VEGFR-3Notch-1血管出芽肿瘤

针刺治疗腕管综合征21例

腕管综合征是由于正中神经在腕管内受卡压,导致桡侧三个半手指疼痛麻木、感觉异常,支配区功能障碍的一组临床症状和体征,失治误治时甚至会出现局部肌肉萎缩和肌无力,严重影响

期刊

腕管综合征针刺穴阳池穴阳溪穴阳谷

管理会计在中小企业税务风险管理中的运用探析

财政部在2014年颁布了《关于全面推进管理会计体系建设指导意见》,标志着管理会计进入新的纪元,一时间实务界和理论界对管理会计这一课题进行了讨论,让管理会计在实务和理论

期刊

管理会计中小企业税务风险策略

从审美走向伦理——论伊格尔顿身体美学理论的现实意义

身体美学作为当代学术界的研究热点之一,近些年却陷入到了普遍的困境之中：它有助于研究者将研究视野从形而上学拉回到现实存在,却也因将身体的感性维度推得过远而最终流于玄学

期刊

伊格尔顿身体美学现实意义

基于高光谱技术的马铃薯晚疫病早期预测研究

晚疫病作为一种毁灭性病害,已严重危害到马铃薯产业的可持续健康发展。本文以马铃薯为研究对象,晚疫病为胁迫条件,高光谱成像技术为技术手段,探索马铃薯晚疫病叶片中多种理化

学位

马铃薯晚疫病高光谱技术SPAD值植被指数酶活性

清朝资本主义萌芽在近代社会的历史命运

期刊

历史命运沙船业机器生产采矿业中国封建社会丝织业外国商人价值规律招商局军火生产棉纺织业

ICP与妊娠期CHB伴胆汁酸升高的围产结局比较

目的:比较妊娠期肝内胆汁淤积症(ICP)和妊娠合并慢乙肝孕妇胆汁酸升高病例的生化指标及围产结局,以期为临床提供参考。方法:回顾分析2013年12月到2015年11月在上海市公共卫生

期刊

妊娠期肝内胆汁淤积症慢性乙型肝炎总胆汁酸围产结局

非均衡分类的集成学习应用研究

与本文相关的学术论文