基于数据挖掘的个人网络信贷违约预警研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:cgz1987
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
P2P网络借贷作为一种新型的普惠金融模式起源于欧美,在发展初期,由于实际数据的匮乏,学者们的将研究集中于金融服务、平台运营模式的介绍,直到美国P2P平台Prosper对外公开平台交易数据,学术界才有了丰富的研究资源,开始把目光放在P2P面对的最主要的风险问题--信贷违约问题。我国P2P行业起步较晚,仍需借鉴欧美国家的发展经验,目前国内P2P网络借贷的研究还停留在较浅层面,主要集中在P2P平台运营模式,行业监管和信贷违约的影响因素等等,鲜有通过数据挖掘方法建立个人信贷违约预警模型的研究。本文选择使用已经进入稳定发展期的美国P2P市场的网站数据进行实证研究,以期为投资者和P2P平台在如何有效规避信贷违约问题上提供一定的参考。本研究的主要目的是预测一笔贷款是否会违约,将个人信贷违约问题看作了一个二分类问题,选取了集成学习中以bagging算法为基础的随机森林算法建立预警模型,并以CART算法作为基学习器。使用的数据来源于美国P2P网站Prosper提供的2005-2014年的真实交易数据,共含有113,937个实例,81个属性。由于本研究关注的是已完成的贷款和违约贷款的区别,因此删除了数据集中贷款状态为进行中、销账和取消的数据,最终使用的数据集中违约贷款的比例约为10.8%。在分析了个人信贷违约形成的原因之后,从借款者基本信息、借款者经济信息、借款者信用历史和借款信息四个方面结合Prosper的实证数据分析个人信贷违约的影响因素,结果表明借款者的地理位置、工作类型、月收入和负债收入比,借款的原因和利率都对借款者是否会违约影响,特别的,借款者的拖欠账目数对违约的影响很大。在此基础上,通过特征选择方法,删除了识别能力差、和违约无因果关系的、重要性较低的变量,最终选取了24个指标组成个人信贷违约评价体系。以此评价体系在Prosper真实数据集上的实证结果表明,随机森林分类器与CART,LDA和LR分类器相比,获得了最高的查全率,说明随机森林的优势在于能够正确预测样本中的违约用户,更适合于个人信贷违约预警问题。此外,在个人信贷违约问题中,存在着严重的数据不均衡问题,从Prosper公布的数据来看,其贷款违约率保持在10%左右的较低水平,为了解决这个问题,使用加权随机森林(WRF)算法给予少数类更大的权重,增加其分类错误的代价。结果表明WRF算法将查全率提高到了62%,并且获得了最高的AUC分数和袋外分数,证明该模型不仅能正确预测违约用户,还有很高的泛化能力,可以在一定程度上帮助投资者进行投资决策,保护投资者的根本利益,使P2P网络借贷市场健康、稳定发展。
其他文献
全面建设小康社会的一个十分重要的命题,就是在实现经济发展和人民生活富裕的同时,使人口、资源、环境与经济和谐发展,使全面建设的小康社会不仅是物质文明、精神文明、政治
文章介绍了沈阳矿冶所建所以来坚持为有色金属工业发展服务的科研方向所取得的利研成果。
观察了缬草挥发油对中枢神经系统的影响.结果表明,缬草挥发油具有良好的镇静与抗惊厥作用.
通过对福建三所高校部分大学生的问卷调查,了解当前大学生宗教信仰的现状,科学剖析其成因,指出引导大学生树立正确的人生观、价值观,客观看待宗教信仰问题的重要性,进而提出高校今
在药物治疗中,除了要选择合适的药物,也应选择合适的载体,从而使药物通过有效的途径给药,提高治疗效率并减少毒副作用。生物可降解的高分子纳米载体是近来发展的一种新型载药