论文部分内容阅读
近年来,我国的互联网金融行业蓬勃发展。然而在追逐高额利润的同时,也要重视其潜在的巨大违约风险,尤其是借款者的个人信用风险。本文对小额贷款公司的信用风险模型进行理论和实证研究。本文在文献中首次利用机器学习中的梯度迭代决策树(GBDT)算法建立信用风险模型。首先,论文分析了小额贷款公司的风险构成,并且对各种信贷风险评价方法进行逐一介绍和评析,这是理论层面的研究。研究可知,个人信用风险是小额贷款公司面临的最重要的风险。本文将构建模型用到的指标-变量稳定性指标、预测力指标、拟合效果指标进行逐一介绍。之后,利用佰仟金融和银联数据来开发信用风险模型,模型用来估计借款者的个人信用风险的违约率,即业务中所说的信用分,违约率越高,信用分越低,反之则高,这是实证层面的分析。模型包括传统的逻辑回归(logistic)模型和梯度迭代决策树(GBDT)模型,详细描述信用风险模型开发的步骤,从问题准备、数据获取与变量构造、探索性数据分析(EDA)和数据描述、数据准备、变量选择、模型开发、模型检验和评价,最后构建起具有客观性、科学性的信用风险模型。最后对两种信用风险模型进行对比以及策略应用。两个模型最终得出的违约率分布有相似之处,违约率集中在0.3%-8.9%,违约率8.9%以上的客群占比都为16%。为了控制风险,用这两个模型都可以筛选出违约率在8.9%以上的客群。但这两种信用风险模型也有各自的优缺点,从KS图可以看出,logistic模型对好客户和坏客户的区分能力比GBDT模型要好;logistic模型相比GBDT模型不容易造成过拟合;而且,GBDT模型内部的迭代过程处于暗箱,我们无法了解暗箱中是如何进行迭代操作,相比而言,logistic模型就简明易懂。当然,logistic模型与GBDT模型相比也有很多不足之处,因为logistic模型的简单性,它不能较好拟合极端值,有时拟合效果比GBDT模型差。而且在变量筛选时,logistic模型需要大量人工干预的步骤。因此现在的业务还是较多采纳logistic模型这种简单明了的模型来进行风险的度量。但是随着对机器学习的普及化,现代企业还是会将机器学习引入到信用风险评估中,形成互补。模型技术提高的时刻也是风险领域展开新篇章的时刻。