论文部分内容阅读
随着“互联网+”概念的普及,我国互联网金融行业迅速发展,个人信贷业务市场份额也快速增长,使得业务数据变得复杂多样。传统的信贷风控大多是模型驱动的策略,已经不能够满足违约风险预测的需求,导致各类违约事件频发,给机构带来较大的损失。因此,需要引入机器学习算法,来完善信贷风控机制,促进信贷业务市场健康、可持续发展。本文采用机器学习算法针对信贷风控场景中的两个问题进行解决。第一,在新的信贷产品投放初期,由于没有业务积累,仅有少量标记数据和大量无标记数据,因此不能建立数据驱动的有监督信贷风控模型;第二,在信贷产品投放一段时间后,积累到了一定量的数据,大多数机构会采用逻辑回归(Logistics Regression,LR)来实现信贷风控建模,LR模型简单且易于实现、训练速度快,但是这种模型属于线性模型,学习能力有限,不能学习到特征间的非线性关系,需要信贷业务经验丰富的风控工程师做人工特征组合,因此需要耗费大量的人工成本。围绕以上问题,本文主要工作如下:(1)针对信贷产品投放初期,不能建立数据驱动的有监督信贷风控模型的问题,本文提出了基于狄利克雷过程混合模型(Dirichlet Process Mixture Model,DPMM)和隔离森林(Isolation Forest,IForest)的冷启动方法。该方法采用DPMM计算出了无标记样本的违约相似度,采用IForest计算出了无标记样本的违约异常度,综合违约相似度和违约异常度筛选出可靠正常样本和潜在违约样本,为后续监督模型训练提供充足样本。(2)针对信贷产品投放后期,单一LR模型对数据特征间非线性关系学习能力不足的问题,本文提出了基于Bagging的XGBoost-LR模型融合方法。该方法采用极限梯度提升树模型(e Xtreme Gradient Boosting,XGBoost)进行特征转换,将其叶子节点的输出,作为LR模型的输入,进而提升LR对非线性数据特征的学习能力,同时引入Bagging机制,对XGBoost的行采样参数和列采样参数进行扰动,建立多个XGBoost-LR融合模型,进一步提升模型预测能力。为了验证上述两种设计方法的有效性,本文利用某互联网金融公司信贷脱敏数据集和多个UCI数据集,对上述方法进行了实验仿真。同时,为了体现设计方法的实用性,本文设计了一个信贷风控系统。