论文部分内容阅读
消费金融的蓬勃发展让人们体验到信用为生活带来的便利,然而基于传统数据的征信模式在互联网经济形式下的弊端也逐步显露,即传统数据具有真实性无法核实、数据非动态变化、覆盖维度不全等局限性。而互联网数据是用户基于互联网产生的真实行为记录,且动态变化,能有效弥补传统数据的不足,因此进行基于互联网数据的个人信用风险评估的研究具有应用价值和现实意义。而利用互联网数据进行个人信用风险评估的核心问题在于两点:第一,如何基于互联网数据建立有效的个人信用风险评估的指标体系?传统数据来自用户申请表,因此传统的指标体系设计简单并固定,而互联网数据涵盖广泛,因而从海量的互联网数据中构造有价值的指标则需要进行大量的数据分析与挖掘工作。第二,如何构建适用于互联网数据的个人信用风险评估模型?目前大多研究均是基于传统数据建立的风控模型,而互联网数据具有噪音大、维度高、数据稀疏等特点,仅基于传统的算法构建风控模型可能无法取得良好的效果。因此本文也主要基于以上两点进行了实证研究,主要工作内容及创新点如下:(1)提出并建立了基于互联网数据的个人信用风险评估指标体系。首先分析传统指标体系的不足,从互联网数据的特点出发,提出了基于互联网数据的指标评估体系架构,进而在此架构上运用实际的互联网数据构建了包含上万个特征的指标体系,并利用空置率过滤、IV统计量原则对指标体系进行了筛选与优化。(2)构建了基于互联网数据的个人信用风险评估模型并取得不错的效果。通过分析Logistic回归、决策树、随机森林等个人信用风险评估方法的优缺点,选择传统统计学方法Logistic回归和非参数模型GBDT分别建立了基于互联网数据的个人信用风险评估模型,模型初步取得良好效果,其中Logistic回归模型在测试集上的AUC指标为0.71、KS指标为0.35,GBDT模型在测试集上的AUC指标为0.73、KS指标为0.37。(3)提出了一种基于GBDT与Logistic回归融合的个人信用风险评估模型。通过对比分析Logistic回归与GBDT单一模型的优缺点、互补性以及在互联网数据上的分类预测表现,利用GBDT离散化特征和构建组合特征的原理建立了基于GBDT与Logistic回归融合的互联网个人信用风险评估模型,并通过实证研究表明融合模型在分类预测精准度及泛化能力方面较单一模型均有明显提升。