论文部分内容阅读
随着借贷平台的兴起以及互联网金融的发展,金融行业的用户贷款风险预测也变得更加的重要,传统的金融行业面对数据量的剧增已经审核成本的提升,已经难以进行高效的数据处理。随着计算机技术的发展,在大数据时代机器学习技术的出现,给我们提供了更多的可能性和便利性,面对大量的借贷用户,网络借贷平台也出现了一系列的风险管理问题,导致平台方和用户方的合法权益受到损害,因此相关部门也出台了政策来进行约束管理来促进贷款平台的发展。对于借贷平台,自身也该采用技术手段来进行风险规避,故而采用机器学习技术建立预测模型提取出有效信息,进行风险预测来有效的控制风险并最大限度的减少损失。本文针对用户贷款风险预测问题,探讨机器学习方法在互联网金融领域的应用情况。本文研究是在基于以往研究者的基础上采用某互联网贷款平台提供的经过脱敏处理后的用户贷款相关的数据集,本文的主要研究内容如下:(1)首先对用户数据进行了数据预处理的操作,对于与用户的相关个人基本信息和用户相应的贷款相关的信息数据进行了探索性分析,对数据集进行了数据预处理和清洗,包括对缺失值以及重复值进行处理,并对时间戳进行了补齐;(2)在特征工程处理方面,重点对数据集的特征进行处理,采用特征交叉组合方法进行特征衍生、对部分特征进行one-hot编码、部分变量的归一化处理等,特征选择采用Random Forest算法按照特征重要性排序,选取重要性排名前15的特征,并完成最终输入模型的变量汇总;(3)构建模型以及模型的优化,将训练集分为测试集和验证集,把经过特征选择出来的新数据集作为XGBoost模型的输入,经过参数调优和交叉验证得到最终模型的最优参数,并在测试集上进行模型的应用。对融合后模型的性能进行评估,并将改进的预测模型与逻辑回归模型和GBDT模型的预测效果进行对比,得到新模型的预测效果明显是优于其他两个预测模型。通过实验本文提出了一种基于随机森林的XGBoost模型用于用户贷款的风险预测,该模型有较好的预测准确性,最终根据该模型得到的结果结合带大数据时代的背景,对网络借贷平台识别高风险的借贷用户提出一些具有参考性的建议。