论文部分内容阅读
P2P网络借贷作为一种典型的互联网金融模式凭借广泛的参与性和交易的高效性在诞生不久便在我国迅速发展了起来。但近年来随着监管政策的完善和监督力度的不断加强,问题平台不断出现,大量P2P平台转型或停业。本文试图通过运用多种机器学习算法对P2P借贷交易中借款人的借贷结果和违约情况进行分析预测,探究在当今大数据背景下机器学习在互联网金融领域内的应用效果与前景。
本文以人人贷、友金服、立业贷及阿朋贷四家P2P平台为研究对象,爬取并整理了2010年10月至2019年3月期间四家平台上共409409条散标数据。在将样本数据集划分成训练集和测试集后,本文分别应用逻辑斯蒂回归、C5.0决策树、CART决策树、随机森林以及支持向量机这5种机器学习算法分析了借款人特征对借贷结果和借款人违约情况的影响并重点比较了不同算法模型的分类预测效果。
研究发现,(1)借款人在P2P平台上的历史借款特征对预测其借贷结果和违约情况显示出了极高的重要性。(2)C5.0和CART算法由于构建的决策树模型所产生一系列的决策因素组合符合交易参与人序贯决策的特征而达到了较好的预测效果。C5.0决策树基于借款人特征预测借款人能否借贷成功和是否违约时,预测准确率达到了98%和96.1%,AUC值分别为0.997与0.974。标的年化利率、借款人的历史成功借款笔数与风险等级是预测精度最高的因素组合;CART决策树对于借款人借贷和违约情况的预测准确率分别为96%和95.6%,对应的AUC值为0.979与0.967。借款人的历史成功借款笔数和风险等级分别与标的年化利率组成了两种情况下预测精度最高的因素组合。随机森林算法预测借款人借贷结果与违约情况的效果则比较良好,准确率分别达到了76.1%和89.2%,对应的AUC值分别为0.978和0.976。而逻辑斯蒂回归和支持向量机算法对P2P借贷的预测效果却不太理想,两者预测准确率均不足70%。
本文以人人贷、友金服、立业贷及阿朋贷四家P2P平台为研究对象,爬取并整理了2010年10月至2019年3月期间四家平台上共409409条散标数据。在将样本数据集划分成训练集和测试集后,本文分别应用逻辑斯蒂回归、C5.0决策树、CART决策树、随机森林以及支持向量机这5种机器学习算法分析了借款人特征对借贷结果和借款人违约情况的影响并重点比较了不同算法模型的分类预测效果。
研究发现,(1)借款人在P2P平台上的历史借款特征对预测其借贷结果和违约情况显示出了极高的重要性。(2)C5.0和CART算法由于构建的决策树模型所产生一系列的决策因素组合符合交易参与人序贯决策的特征而达到了较好的预测效果。C5.0决策树基于借款人特征预测借款人能否借贷成功和是否违约时,预测准确率达到了98%和96.1%,AUC值分别为0.997与0.974。标的年化利率、借款人的历史成功借款笔数与风险等级是预测精度最高的因素组合;CART决策树对于借款人借贷和违约情况的预测准确率分别为96%和95.6%,对应的AUC值为0.979与0.967。借款人的历史成功借款笔数和风险等级分别与标的年化利率组成了两种情况下预测精度最高的因素组合。随机森林算法预测借款人借贷结果与违约情况的效果则比较良好,准确率分别达到了76.1%和89.2%,对应的AUC值分别为0.978和0.976。而逻辑斯蒂回归和支持向量机算法对P2P借贷的预测效果却不太理想,两者预测准确率均不足70%。