论文部分内容阅读
类倾斜分布的数据集广泛存在于现实世界中。在很多领域,针对非均衡分布的分类问题,少数类样本被正确分类的重要程度往往高于多数类样本被正确分类的重要程度。在类倾斜分布数据集的前提下构建非均衡分类模型时,大多经典分类算法都是以训练集具有平衡的类分布或者各类样本具有相同的误分代价为前提建立分类模型,因此,非均衡的类分布在一定程度上造成了这些分类算法性能下降。在这种情况下,少数类样本的信息往往被多数类样本信息所掩盖,导致来自少数类样本的分类错误率远远高于多数类样本。因此,非均衡分类问题的研究愈发受到广泛关注,同时也成为数据挖掘应用领域的热点及难点问题。本文在探讨非均衡分类应用问题之前,首先对非均衡分类问题研究内容和现状进行介绍,从采样方法、分类算法方面展开详细的综述。然后,根据集成学习算法在处理非均衡数据时,较单分类器能够取得更好的性能的优点,进一步探讨了集成学习组合方法对非均衡分类问题的处理情况,并对相关应用进行详细阐述。本文基于集成学习模型对非均衡分类问题有以下两部分应用:第一部分,基于2014年A股沪市1000组上市公司财务数据,使用基于海格林距离的随机森林(Hellinger Distance based Random Forest, HDRF)从 ST股非均衡分类的角度对上市公司财务预警模型构建问题进行研究。基于海林格距离的随机森林能够集成随机森林的差异性以及海林格距离决策树的倾斜不敏感特征,实验中选择了传统随机森林、基于C4. 5决策树为基分类器的Bagging、AdaBoost、旋转森林集成分类器以及基于海林格决策树为基分类器的相应集成分类器作对比实验,实验结果表明基于海林格距离的随机森林集成模型在处理上市公司ST股非均衡分类问题时,在ROC曲线下面积及Fmeasure指标上具有相对更好的综合分类性能,此外海林格距离决策树作为基分类器能够提高集成模型非均衡分类性能。第二部分,拓展了非均衡分类模型的应用。针对客户关系管理领域的客户保持研究,此部分重点讨论了商业银行客户流失问题,将CVParameterSelection应用于支持向量机组合核函数参数寻优,构建了基于EasyEnsemble的Relief-SVM客户流失预测模型,并通过商业银行客户资料数据研究验证了该模型较单一核函数EasyEnsemble-Relief-SVM模型及传统C4. 5决策树为基分类器的Bagging、AdaBoost集成分类器在AUC、Fmeasure指标上均有所提升。因此,在参数寻优前提下组合核函数EasyEnsemble的Relief-SVM客户流失预测模型是一种处理商业银行客户流失分类预测问题的有效方法,不但能够更准确地对潜在流失客户进行预测,同时还兼顾客户整体分类精度,这使得针对流失客户开展客户挽留决策成为可能,最终尽可能达到客户保持的目的。最后,本文对基于集成学习的非均衡分类方法对这两部分应用研究进行了总结,分析不足之处并对未来的研究做了展望,希望能够对经济管理领域中一些非均衡数据开展有效的知识发现。