基于随机森林模型的P2P平台个人信用风险评估

来源 :西南财经大学 | 被引量 : 0次 | 上传用户:jonquil1981
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年,P2P网络借贷平台如雨后春笋般应运而生。作为一种创新的互联网金融模式,P2P网络借贷方便快捷、投资回报率高、资金回收周期短,能有效解决中小企业及个人融资投资难的问题。但是平台数量疯狂增长的背后潜藏着很大的隐患。例如由于P2P借贷平台发展时间短、个人信用评级技术落后、还未建立完善的风控体系、借款人的信用风险无法准确评估,因此投资者的资金可能面临很大的风险,这些是影响P2P平台发展的重要瓶颈。因此如何建立起一套完善的信用风险评测系统是每个企业持续发展的关键,本文在此基础上,通过对比分析各个模型对个人信用风险评估的准确性及稳定性,最终建立加权随机森林模型,能够较为准确地预测个人是否会发生违约行为。首先获取及处理数据。本文使用Python爬取国内P2P平台人人贷的数据,特征变量主要包括借款人的基本信息、基本借贷信息等。观察后发现有些变量取值唯一或对模型的训练没有实质帮助,因此使用五折交叉验证方法筛选出重要的特征变量用来后续建模分析。接着使用随机森林(RF)模型对个人信用预测分类,分类结果为违约与不违约。相对于传统的单分类器模型,组合分类器模型随机森林具有很好的稳定性,不容易产生过拟合现象,并且能够提高样本的分类精度。故本文通过介绍随机森林模型,在此基础上构造加权随机森林模型,并引入代价敏感学习法,提高违约个体的分类准确率,使模型更加适合P2P平台的数据。最后使用加权随机森林模型对个人信用分类预测,并与传统信用风险评估模型比较,发现加权随机森林模型更加稳定,且有较高的分类准确率,适合P2P平台对个人信用进行预测分类。此外,针对违约样本数据比较少的特点,我们对训练数据集运用SMOTE方法进行处理,增加违约样本的个数,使模型在训练时能够有更多的参考,从而提高模型对违约个体的预测精度与实用性。在本文的最后,通过对比国内外P2P平台指标选取方面的差异可以发现:国外平台的特征指标更注重借款人的基本情况,而国内平台更关注贷款的基本信息。而本文的模型是在对特征变量筛选后建立,针对这一点可以看出,我们所建立的模型更加适合国内P2P平台的发展现状。
其他文献
与英语反身代词相比,汉语光杆“自己”的回指更为复杂。本文从句法-语义界面视角出发,探讨光杆“自己”长距离回指的形成动因及长距离回指阻断效应的影响因子。通过阐释“自
目的:探讨生大黄治疗重症急性胰腺炎(SAP)腹胀的临床效果。方法:将60例SAP腹胀患者随机分为生大黄治疗组(简称治疗组)和对照组各30例,对照组采用非手术常规治疗。治疗组在此基础上用
目的观察生大黄联合皮硝外敷治疗急性胰腺炎的效果。方法将83例急性胰腺炎患者随机分为两组,对照组38例予常规治疗,治疗组45例在常规治疗的同时加用生大黄联合皮硝外敷。结果治
自1981年,有限单群分类完成以后,许多学者开始利用群的性质去研究组合设计.设计的分类问题是有限群论与组合设计理论研究的一个前沿课题.近些年来,自同构群为几乎单型的区传
对我院纵隔内巨大脂肪肉瘤伴钙化误诊1例分析如下。1病历摘要女,31岁。胸闷、憋气10d余,胸片示左侧胸腔大量积液,遂行CT检查。CT表现:左前中上纵隔内示一约13.0cm×7.5cm×
20世纪楚辞研究的第一个高潮——《楚辞研究一百年》之二周建忠楚辞研究已有两千多年的历史,但主要成果集中在本世纪,如1900—1996年,出版楚辞著作359种,1900—1994年,发表楚辞论文4483篇。审视20世纪的楚辞研
本文利用1998-2015年我国A股市场的样本数据探讨了我国A股市场是否存在"名义价格异象"这个问题,并对其背后的理论或制度原因进行了深入讨论。研究结果表明,我国A股市场存在"
为选择出适应于混凝好氧颗粒污泥培养的絮凝剂,通过絮凝剂添加量、污泥浓度、搅拌速度、搅拌时间等因子进行L9(3)4正交实验,以COD、浊度去除效果及絮凝颗粒结构为考察因子,研
该文主要从格式塔心理学的角度分析中国江南私家园林,解读这一特殊建筑景观形式中的主要特点,并尝试从心物场的格式塔完形特征,将园林最初的设计使用到今天的观赏感知的过程统一
“超生游击队”即躲避计划生育行政部门的管控,超计划生育或违犯生育政策生育的群体,常以家庭为单位迁移流动,“超生”和“隐匿”是其主要特征。1980年至2015年,是我国施行一