论文部分内容阅读
随着我国经济的发展和人民消费观念的转变,人民对于信贷业务的需求日益增加,银行的信贷业务逐渐发展起来,并为其带来了新的利润增长点。如果不能对客户的资质和还款能力进行有效的审查和评估,将导致银行承担较大的金融风险。因此,亟需高效准确的方法,有效识别未来可能发生逾期行为的客户,规避金融风险,并为银行信用体系建设以及对于客户的评估提供一些参考。本文主要以某贷款机构的历史贷款数据为例,建立信贷逾期行为的预测模型。首先将所得数据清洗和处理,然后通过WOE分箱和IV值选取包含信息量较大的特征,进行相关系数的计算,确定强相关的变量并去除,以免影响实验结果。由于信用行为预测的数据往往不平衡,需要进行欠采样或过采样来平衡数据。而贷款数据具有极度不平衡的特点,这将导致单一的分类器完全失效,集成模型得到的分类结果也不是特别理想。针对这类问题,本文采用随机欠采样与SMOTE过采样相结合的方法去平衡训练集,以避免仅仅使用欠采样造成数据过度损失或仅使用过采样引入太多噪声。在模型选择方面,采用Logistic回归、支持向量机以及基于决策树的集成算法随机森林和Light GBM,在平衡过的训练集上分别建模。最后在原测试集上预测,并根据预测的准确率和AUC值对模型进行评价,综合各项指标选出最优模型进行信贷逾期行为预测。研究发现,在平衡过的数据集上建模,各个分类算法的分类性能显著提升,但彼此之间存在较大差异。对于单一模型,经过平衡处理后解决了模型失效的问题,可以达到一定的分类效果。其中Logistic回归相对支持向量机来讲表现较好,但总体上单一模型的预测准确率一般。集成模型各个指标与单一模型相比有了很大提升。其中,随机森林模型取得了不错的效果,而近年来广受欢迎的Light GBM算法作为梯度提升树的改进,在提高训练速度的同时保持了梯度提升算法的预测精度,因此在信用风险预测问题上表现出强大的分类性能,从各个评价指标来看,总体上Light GBM分类效果强于随机森林,加上Light GBM具有运行速度快,内存占用小的优势,且对参数进行微调就可以得到不错的分类效果。所以Light GBM表现最优。因此,Light GBM更适合用于银行或贷款机构建立识别逾期用户的模型,以提前筛选出未来可能发生信用违约的用户,减少损失。此外,通过进行各类指标的重要性分析,发现交易信息方面的指标会对分类提供更多的信息,这对于银行或贷款机构以及征信体系如何更有效地收集客户信息提供了一些参考。