论文部分内容阅读
P2P网络借贷作为一种新型的普惠金融模式起源于欧美,在发展初期,由于实际数据的匮乏,学者们的将研究集中于金融服务、平台运营模式的介绍,直到美国P2P平台Prosper对外公开平台交易数据,学术界才有了丰富的研究资源,开始把目光放在P2P面对的最主要的风险问题--信贷违约问题。我国P2P行业起步较晚,仍需借鉴欧美国家的发展经验,目前国内P2P网络借贷的研究还停留在较浅层面,主要集中在P2P平台运营模式,行业监管和信贷违约的影响因素等等,鲜有通过数据挖掘方法建立个人信贷违约预警模型的研究。本文选择使用已经进入稳定发展期的美国P2P市场的网站数据进行实证研究,以期为投资者和P2P平台在如何有效规避信贷违约问题上提供一定的参考。本研究的主要目的是预测一笔贷款是否会违约,将个人信贷违约问题看作了一个二分类问题,选取了集成学习中以bagging算法为基础的随机森林算法建立预警模型,并以CART算法作为基学习器。使用的数据来源于美国P2P网站Prosper提供的2005-2014年的真实交易数据,共含有113,937个实例,81个属性。由于本研究关注的是已完成的贷款和违约贷款的区别,因此删除了数据集中贷款状态为进行中、销账和取消的数据,最终使用的数据集中违约贷款的比例约为10.8%。在分析了个人信贷违约形成的原因之后,从借款者基本信息、借款者经济信息、借款者信用历史和借款信息四个方面结合Prosper的实证数据分析个人信贷违约的影响因素,结果表明借款者的地理位置、工作类型、月收入和负债收入比,借款的原因和利率都对借款者是否会违约影响,特别的,借款者的拖欠账目数对违约的影响很大。在此基础上,通过特征选择方法,删除了识别能力差、和违约无因果关系的、重要性较低的变量,最终选取了24个指标组成个人信贷违约评价体系。以此评价体系在Prosper真实数据集上的实证结果表明,随机森林分类器与CART,LDA和LR分类器相比,获得了最高的查全率,说明随机森林的优势在于能够正确预测样本中的违约用户,更适合于个人信贷违约预警问题。此外,在个人信贷违约问题中,存在着严重的数据不均衡问题,从Prosper公布的数据来看,其贷款违约率保持在10%左右的较低水平,为了解决这个问题,使用加权随机森林(WRF)算法给予少数类更大的权重,增加其分类错误的代价。结果表明WRF算法将查全率提高到了62%,并且获得了最高的AUC分数和袋外分数,证明该模型不仅能正确预测违约用户,还有很高的泛化能力,可以在一定程度上帮助投资者进行投资决策,保护投资者的根本利益,使P2P网络借贷市场健康、稳定发展。