论文部分内容阅读
随着信用风险损失日益增长,建立一套科学、有效的信用风险控制方案对金融机构来说尤为重要。为提高工作效率,机器学习模型被安排在许多繁琐的业务流程当中,但每一次不正确的预测都可能带来严重的后果。当前基于机器学习的信用风险控制方案普遍存在解释性较差、判别指标不完善等问题。针对这些问题,本文主要利用多源数据信息完成信用风险控制模型和信用风险评分卡构建等方面的内容。论文主要工作如下:为满足信贷业务监管部门对最终上线模型可解释性的要求,本文采用主流的逻辑回归来建立信用风险控制模型。但是,它作为广义线性模型,预测效果不佳。因此本文首先提出了一种基于EasyEnsemble欠采样方法改进的算法FenbuEasyEnsemble(FEE),主要通过去除噪声样本、子集划分、集合填充等步骤来平衡数据集。然后在此基础上,构建了一个基于平衡数据集和组合特征的多阶段混合模型XGBOOST_FenbuEasyEnsemble_Logistic Regression(XGB_FEE_LR),让逻辑回归解释性好的巨大优势尽可能地得到发挥,同时从数据预处理和特征提取两个方面去弥补它预测效果不佳的劣势。本文在三个不同的数据集下从AUC值和G_means值两个维度去衡量不同模型的性能。实验证明,在分类效果上,XGB_FEE_LR模型比其他单一模型和混合模型表现的更加优异,具有一定的创新实践意义。其次,传统的信用风险评分卡只考虑了用户本身的信息比如身份、资产、过往履约情况等因素,而忽略了用户之间的联系,评分的完备性不够。因此本文首先根据已有的多源数据信息动态地建立了人物金融关系图谱。然后在此基础上,提出了一种基于人物金融关系图谱双向传播的影响力评估算法Financial Relations Graph_Anti_Direct_Rank(FRG_ADRank)来衡量违约用户对正常用户的影响。最后本文将该算法融入到经典评分卡构建方法中,从而构建更加全面、有效的信用风险评分卡。相比传统的影响力评估算法,FRG_ADRank算法更能反映真实的金融活动带来的影响。而且通过此种方式,金融机构可以提早发现那些还没有表现出恶意行为的可疑用户,尽快采取措施,一定程度上弥补了当前信用风险控制方法中预防滞后性所带来的经济损失。