基于机器学习的P2P网贷风险控制模型的研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:popularmp3007008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
P2P网络贷款在为中小企业解决融资难、融资贵问题的同时,也让一部分投资者的小额资金得到了合理的利用。但是随着P2P网络贷款平台逐渐的发展,也暴露出大量的问题,巨大的风险一方面源于平台自身的管理问题,另一方面也是更重要的一方面是由于部分借款人自身存在严重的信用问题,故意骗贷、欺诈,致使P2P网络信贷平台出现大量坏账或逾期,这严重威胁了P2P网络信贷平台的健康运行。如何对P2P网络信贷平台的贷款申请人的信用风险进行有效的评估并准确地预测其在借款后出现的逾期或坏账,已经迫在眉睫。由于征信系统难以实现对P2P网络信贷平台借款人进行有效的信用风险评估,因而本文以机器学习以及大数据作为视角,借助大数据与机器学习的天然优势,采用统计学习算法对P2P网络信贷平台用户的多维度的数据进行挖掘,建立模型对P2P网络信贷平台用户是否会逾期进行预测。本文主要做了以下四个方面的工作:第一,当数据集存在类别不平衡问题时,传统的模型评价指标如准确率、精确率等难以对模型的性能进行有效的评估,而ROC曲线与AUC值作为模型性能的一种度量,即使数据集存在类别不平衡的问题也能有效地度量模型的性能。因而本文引入了ROC曲线与AUC值作为模型性能的评价指标,利用模型的预测结果,计算AUC值而不是精确率等传统指标。第二,在特征构建过程中,首先通过人工分析进行特征构建,而后引入一种新方法,将包含人工特征构建结果的数据集训练一个具有500棵决策树的XGBoost分类器,利用每个样本落在每棵决策树上叶子节点的索引值作为新的特征,共得到500个新特征,将其与人工特征构建的结果合并得到最终特征构建结果。第三,在特征选择的时候,提出了一种新算法:基于XGBoost的递归特征消除方法。利用该方法可以得到所有特征的依据其重要性排序的集合,可以从中选择出若干个最重要的特征作为特征选择的结果。第四,单模型的性能和稳定性往往并不理想,很多时候需要通过集成学习来进行模型融合。本文从模型的性能和稳定性出发,提出了一种模型融合方案。本文的模型融合方案在整体上采用了Blending方法,并结合了Bagging方法以及Stacking方法,将多个线性分类器和非线性分类器进行模型融合,得到最终模型。
其他文献
以普通硅酸盐水泥和硫铝酸盐水泥按照一定比例复配作为胶凝材料,0~1mm的石英砂作为骨料,并掺入粉煤灰、缓凝剂、膨胀剂等多种材料,研制出一种初始流动度〉320mm、30min流动度〉30
针对主动配电网中远程终端单元(RTU)、相量测量单元(PMU)与高级量测体系(AMI)多采样周期量测数据长期共存的实际情况,提出了一种基于RTU,PMU,AMI混合量测的主动配电网状态估计混合
务实是江南文化一个鲜明特点,历史悠久,表现广泛。讲实学、办实事、重实效、求实惠。自明清时期至近现代工商业的发展,江南人重视物质生活的特点,精明能干形象的形成,科举人
大数据时代,高校图书馆必须转变传统的思维和决策模式,以全新理念引领信息资源建设。文章在全面理解信息资源建设内涵的基础上,确立大数据时代信息资源建设的目标,运用大数据技术
近来,时常见到这样一些报道,某名城重修拆毁年久的城墙,某地重建古楼,而新建的寺庙、宝塔到处都有,粗制滥造的假古董比比皆是。还有一些超越实际的猎奇建筑,如建在世界遗产长
山西榆次常家,以财取天下之抱负,逐利四海之气概,制茗手武夷山,扎庄于恰克图,拓开万里茶路,经销蒙俄北欧,绵延二百余年,遂成富甲海内之晋商巨贾,中国对俄贸易之第一世家。
罗门哈斯集团宣布将在华设立罗门哈斯(中国)投资有限公司,地点拟定于北京或上海。业内人士认为,罗门哈斯的新投资公司将囊括其旗下所有在华贸易公司和生产型合资企业。
第一章总则第一条为保障国家投资土地开发整理项目顺利实施,全面完成项目建设任务,根据有关法律、法规和政策规定,制定本办法。第二条本办法适用于国家投资土地开
位居北京长安街南面、国贸东边的“现代城”,在以“SOHO”(居家办公)的住房时尚一度引领京城房地产市场之后,目前已经清盘。在离“现代城”不远的地方和长安街西端的石景山区
随着房地产开发的迅速发展,物业管理行业暴露的问题越来越多,房地产开发的发展速度,超过了市场的成熟程度,而国有物业管理公司大多与开发企业有着一定的“血缘”关系,于是就