论文部分内容阅读
近年来互联网技术快速发展,金融行业也产生巨大变革,以P2P网络借贷为代表的互联网金融创新层出不穷。但无论如何创新,信用风险控制始终是金融行业的核心。我国传统金融信贷业务办理速度较慢、效率低,并且覆盖的人群面窄已经无法适应互联网金融业务新的需求。大数据和机器学习技术可以将大量纷繁、看似互无关系的信息进行重新的梳理匹配,使之成为更准确、更有效的数据,并进行数据分析和预测。 本文以P2P网贷平台上借款人违约预测为切入点,探索大数据和机器学习技术在P2P网贷行业中个人信征领域的运用,最终提出多模型融合方案。该融合方案包括三部分,具体内容如下: (1)数据的收集与处理。通过构建P2P网贷借款人违约预测场景下的用户画像,将互联网行为、社交等多方数据源纳入评价体系。本文从个人基本信息、稳定性、历史信用、个人及家庭资产、消费行为、互联网行为、社交信息7大维度构建用户画像,有效解决大数据中数据采集和组织难题。 (2)使用多个模型对P2P网贷借款人违约进行预测。将P2P网贷借款人违约预测问题简化为二分类问题,分别使用Logistic回归、SVM、Boost Tree、深度神经网络算法对借款人是否会违约进行预测。Logistic回归有比较好的准确率,倾向于将未违约客户预测为违约客户,但是精确度不高;SVM模型有比较高的精确率,但是违约客户的召回率比较低;XGBoost模型该模型方面表现都不特别突出,但是比较均衡。各个分模型都有优势和不足。 (3)进行多模型的融合。将实证研究结果进行对比,采用Logistic回归对单模型的预测结果进行融合。进行模型融合后,得到的AUC值、Accurcy、Precision都非常高,而且召回率也在70%左右,F1得分也在0.8左右,模型的综合能力得到大幅提升。 论文采用拍拍贷大数据风控大赛中提供数据进行实证研究,结果证明互联网行为、社交等多元化数据可以完善P2P网贷个人信征的评价体系;使用合适的机器学习进行P2P网贷违约风险预测可以取得良好效果;多模型的融合可以提高预测模型的综合能力。本文提出的多模型融合方案可以丰富互联网金融行业信用风险管理思路和方法,为借贷、信征行业相关企业使用大数据和机器学习技术进行信用风险评估提供借鉴。