论文部分内容阅读
随着互联网金融的快速发展,许多银行机构和借贷平台暴露出越来越多的信用风险问题。信贷风险评估模型作为一种有效的工具,可以利用客户信息和客户活动数据识别潜在的风险,在金融机构中发挥着至关重要的作用。本文针对信贷客户数据海量、高维且类别分布不均衡的特点,对原始的信贷客户数据进行了均衡化处理和特征选择,并在此基础上建立了基于集成学习的信贷风险评估模型,实现了信贷客户的风险评估。具体研究内容及创新点如下:(1)提出了一种基于选择性混合采样的非均衡信贷数据处理方法。通过对信贷客户数据中不同类别的样本分布情况进行分析,分别对少数类和多数类的信贷客户样本进行选择性采样处理,解决了因信贷数据类别分布不均衡所导致的风险评估不合理的问题。实验结果表明,相较于SD_ISMOTE方法,该方法处理后的信贷客户数据将C4.5风险评估模型的F-measure值和G-mean值分别提高了6%和7%。(2)提出了一种基于多过滤器结合NSD(New Separable Degree)指标的信贷特征选择方法。通过从多个角度对信贷客户特征的重要程度进行度量和评估,避免了单一过滤器选择特征时,信贷客户特征的多方面信息容易被忽略的问题。实验结果表明,相较于单一过滤器的方法(SFS-LW),该方法选出的最优特征子集将信贷客户风险评估的分类精确率提高了11.8%;相较于多过滤器结合包装器的方法,该方法选择特征的时间效率提升了30%~80%。(3)结合静态集成和动态选择集成,提出了两种基于集成学习的风险评估模型:基于静态集成学习的FS-Bagging模型和基于动态选择集成的FBK模型,实现了信贷客户的风险评估。实验结果表明,基于动态选择集成的FBK模型在信贷客户的风险评估中表现最优。相较于Un-Ext-GDBT模型,该模型的AUC值提高了2%,ACC+值提高了2.5%。综上所述,本文提出的集成非均衡数据处理和特征选择的信贷风险评估模型,能够更加精准地实现信贷客户的风险评估。这不仅能帮助金融机构合理地规避风险,减少损失的发生,还能为实际的信贷风险管理提供有价值的指导。