论文部分内容阅读
近些年,P2P网络借贷平台如雨后春笋般应运而生。作为一种创新的互联网金融模式,P2P网络借贷方便快捷、投资回报率高、资金回收周期短,能有效解决中小企业及个人融资投资难的问题。但是平台数量疯狂增长的背后潜藏着很大的隐患。例如由于P2P借贷平台发展时间短、个人信用评级技术落后、还未建立完善的风控体系、借款人的信用风险无法准确评估,因此投资者的资金可能面临很大的风险,这些是影响P2P平台发展的重要瓶颈。因此如何建立起一套完善的信用风险评测系统是每个企业持续发展的关键,本文在此基础上,通过对比分析各个模型对个人信用风险评估的准确性及稳定性,最终建立加权随机森林模型,能够较为准确地预测个人是否会发生违约行为。首先获取及处理数据。本文使用Python爬取国内P2P平台人人贷的数据,特征变量主要包括借款人的基本信息、基本借贷信息等。观察后发现有些变量取值唯一或对模型的训练没有实质帮助,因此使用五折交叉验证方法筛选出重要的特征变量用来后续建模分析。接着使用随机森林(RF)模型对个人信用预测分类,分类结果为违约与不违约。相对于传统的单分类器模型,组合分类器模型随机森林具有很好的稳定性,不容易产生过拟合现象,并且能够提高样本的分类精度。故本文通过介绍随机森林模型,在此基础上构造加权随机森林模型,并引入代价敏感学习法,提高违约个体的分类准确率,使模型更加适合P2P平台的数据。最后使用加权随机森林模型对个人信用分类预测,并与传统信用风险评估模型比较,发现加权随机森林模型更加稳定,且有较高的分类准确率,适合P2P平台对个人信用进行预测分类。此外,针对违约样本数据比较少的特点,我们对训练数据集运用SMOTE方法进行处理,增加违约样本的个数,使模型在训练时能够有更多的参考,从而提高模型对违约个体的预测精度与实用性。在本文的最后,通过对比国内外P2P平台指标选取方面的差异可以发现:国外平台的特征指标更注重借款人的基本情况,而国内平台更关注贷款的基本信息。而本文的模型是在对特征变量筛选后建立,针对这一点可以看出,我们所建立的模型更加适合国内P2P平台的发展现状。