大数据背景下多模型融合的P2P网贷违约风险预测研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:blowywang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来互联网技术快速发展,金融行业也产生巨大变革,以P2P网络借贷为代表的互联网金融创新层出不穷。但无论如何创新,信用风险控制始终是金融行业的核心。我国传统金融信贷业务办理速度较慢、效率低,并且覆盖的人群面窄已经无法适应互联网金融业务新的需求。大数据和机器学习技术可以将大量纷繁、看似互无关系的信息进行重新的梳理匹配,使之成为更准确、更有效的数据,并进行数据分析和预测。  本文以P2P网贷平台上借款人违约预测为切入点,探索大数据和机器学习技术在P2P网贷行业中个人信征领域的运用,最终提出多模型融合方案。该融合方案包括三部分,具体内容如下:  (1)数据的收集与处理。通过构建P2P网贷借款人违约预测场景下的用户画像,将互联网行为、社交等多方数据源纳入评价体系。本文从个人基本信息、稳定性、历史信用、个人及家庭资产、消费行为、互联网行为、社交信息7大维度构建用户画像,有效解决大数据中数据采集和组织难题。  (2)使用多个模型对P2P网贷借款人违约进行预测。将P2P网贷借款人违约预测问题简化为二分类问题,分别使用Logistic回归、SVM、Boost Tree、深度神经网络算法对借款人是否会违约进行预测。Logistic回归有比较好的准确率,倾向于将未违约客户预测为违约客户,但是精确度不高;SVM模型有比较高的精确率,但是违约客户的召回率比较低;XGBoost模型该模型方面表现都不特别突出,但是比较均衡。各个分模型都有优势和不足。  (3)进行多模型的融合。将实证研究结果进行对比,采用Logistic回归对单模型的预测结果进行融合。进行模型融合后,得到的AUC值、Accurcy、Precision都非常高,而且召回率也在70%左右,F1得分也在0.8左右,模型的综合能力得到大幅提升。  论文采用拍拍贷大数据风控大赛中提供数据进行实证研究,结果证明互联网行为、社交等多元化数据可以完善P2P网贷个人信征的评价体系;使用合适的机器学习进行P2P网贷违约风险预测可以取得良好效果;多模型的融合可以提高预测模型的综合能力。本文提出的多模型融合方案可以丰富互联网金融行业信用风险管理思路和方法,为借贷、信征行业相关企业使用大数据和机器学习技术进行信用风险评估提供借鉴。
其他文献
在经济、文化、技术高速发展的新时代,新媒体以其强大的传播功能影响着各行各业的运营和发展.在应用新媒体技术展开教育活动的过程中,知识讯息通道被大幅拓展,有助于党务部门
随着电力电子技术的发展,非线性负载应用越来越广泛,电力系统中的非线性负载产生的电压和电流谐波严重影响了电力传输系统中的电能质量。有源电力滤波器(APF)作为一种新型的谐波
随着社会的发展,高速公路改扩建工程越来越普遍,从而带来了一系列的问题有待解决,而交通组织方案的选择,在很大程度上影响了高速公路改扩建工程的工期、成本、质量以及交通安全与
在乡村振兴战略背景 下开展的农村环境治理工作是一项长期的工作,它与农村的生态权益和生活环境情况息息相关,同时也与农村经济发展有着密不可分的关系.所以政府与相关部门一
名人广告与名人代言是现代社会在商品市场上的重要营销手段和品牌推广之一,因为名人在广告代言过程中被认为对受众在吸引注意、情绪唤醒等方面存在一定的作用影响,这些作用或
利用红枫苗木林下的行间空地,结合多花黄精(简称黄精)和羊肚菌的生理特性,合理规划、科学栽种黄精,再在黄精间隙间套种羊肚菌,实现多层套种的立体高效栽培模式,充分利用土地
摘要:新的《高中数学课程标准》的基本理念中提出:注重提高学生的数学思维能力,这是数学教育的基本目标之一.这就要求教师在教学中关注学生思维能力的训练.
思想政治教育对学生的一生都有重要的影响,不但能够提高学生的素质水平,还能够调节学生的心态,在关键时刻引导学生进行积极的选择.中职语文课程是中职学校重要的课程之一,也
本文通过对荣华二采区10
为研究新型冠状病毒肺炎疫情对广西肉牛产业的影响,采用电话、微信、网络调查问卷等方式对区内8个城市33个县区113个肉牛繁育场、养殖场(企业)、合作社进行了调研,发现51.16%