论文部分内容阅读
P2P网络贷款在为中小企业解决融资难、融资贵问题的同时,也让一部分投资者的小额资金得到了合理的利用。但是随着P2P网络贷款平台逐渐的发展,也暴露出大量的问题,巨大的风险一方面源于平台自身的管理问题,另一方面也是更重要的一方面是由于部分借款人自身存在严重的信用问题,故意骗贷、欺诈,致使P2P网络信贷平台出现大量坏账或逾期,这严重威胁了P2P网络信贷平台的健康运行。如何对P2P网络信贷平台的贷款申请人的信用风险进行有效的评估并准确地预测其在借款后出现的逾期或坏账,已经迫在眉睫。由于征信系统难以实现对P2P网络信贷平台借款人进行有效的信用风险评估,因而本文以机器学习以及大数据作为视角,借助大数据与机器学习的天然优势,采用统计学习算法对P2P网络信贷平台用户的多维度的数据进行挖掘,建立模型对P2P网络信贷平台用户是否会逾期进行预测。本文主要做了以下四个方面的工作:第一,当数据集存在类别不平衡问题时,传统的模型评价指标如准确率、精确率等难以对模型的性能进行有效的评估,而ROC曲线与AUC值作为模型性能的一种度量,即使数据集存在类别不平衡的问题也能有效地度量模型的性能。因而本文引入了ROC曲线与AUC值作为模型性能的评价指标,利用模型的预测结果,计算AUC值而不是精确率等传统指标。第二,在特征构建过程中,首先通过人工分析进行特征构建,而后引入一种新方法,将包含人工特征构建结果的数据集训练一个具有500棵决策树的XGBoost分类器,利用每个样本落在每棵决策树上叶子节点的索引值作为新的特征,共得到500个新特征,将其与人工特征构建的结果合并得到最终特征构建结果。第三,在特征选择的时候,提出了一种新算法:基于XGBoost的递归特征消除方法。利用该方法可以得到所有特征的依据其重要性排序的集合,可以从中选择出若干个最重要的特征作为特征选择的结果。第四,单模型的性能和稳定性往往并不理想,很多时候需要通过集成学习来进行模型融合。本文从模型的性能和稳定性出发,提出了一种模型融合方案。本文的模型融合方案在整体上采用了Blending方法,并结合了Bagging方法以及Stacking方法,将多个线性分类器和非线性分类器进行模型融合,得到最终模型。