P2P平台满标的影响因素与借款人违约风险研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:geweiqi0219
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今社会,由于小微企业和个人存在规模小、经营风险高等问题,很难从传统金融机构中获得贷款,导致小微企业和个人面临着融资难的问题。幸运的是,互联网作为一种重要的技术手段,可以有效降低审查的风险和成本,实现运作的透明化,使小额贷款成为可能。正是在互联网迅速发展的背景下,P2P网络借贷在我国金融行业里得以快速发展。然而,近年来P2P网络借贷存在着大量非法经营的事件。比如,平台中存在的非法集资、高管跑路和提现困难等问题也是屡见不鲜。因此,通过机器学习和神经网络等大数据分析方法,探究显著影响借款人满标的因素,帮助借款人提高借款成功率;探究如何提高借贷平台识别借款人违约情况的能力,选出显著提高P2P网络借贷平台预测借款人违约概率的模型,为提升借贷平台识别借款人违约情况的预警能力具有指导意义。第1章主要介绍P2P网络借贷的研究背景和研究意义以及本文的研究框架和组织架构;国内外针对P2P网络借贷平台和不平衡数据处理的研究现状。第2章主要介绍P2P网络借贷数据的来源以及对数据中缺失值的处理、异常值的判断和相关特征的变换。同时,分别对影响借款人满标因素的数据和P2P平台识别借款人违约情况的数据进行探索性数据分析,初步探究出投标人数、成功借款笔数、借款人借款总额和保障方式这4个特征是显著影响满标的因素以及平台垫付金额、借款人逾期金额、借款人严重逾期笔数、借款人逾期次数和借款人待还本息这5个特征也是明显影响借款人是否能够成功借款的因素。第3章主要利用方差选择法、spearm相关系数法、基于树模型的特征选择法和递归式特征消除法这4种方法进行特征的选择。对于影响借款人满标因素的数据,选择了借款人信用等级、还款期限、借款人信用额度、年利率、借款人申请借款笔数、借款人年龄和标的总额这7个特征;对于P2P平台识别借款人违约情况的数据,选择了借款人信用等级、年利率、借款人申请借款笔数、还款期限、借款人信用额度、借款人收入和借款人学历这7个特征。第4章主要利用Logistic回归、CART决策树和k-modes聚类分析的方法,对影响借款人满标因素的数据进行建模分析,主要研究哪些因素显著影响借款人满标概率。首先,当利用Logistic回归探究显著影响借款人满标的因素时发现,自变量借款人信用等级、借款人信用额度、还款期限、年利率、借款人申请借款笔数和标的总额都是显著影响借款人能否成功贷款的因素。然后,当进一步利用CART决策树进行分类时发现,借款人信用等级和借款人信用额度这两个特征影响程度最大。并且,当信用等级为“AA和A”和信用额度大于3250时,借款人满标的概率更大。最后,基于第2章的探索性数据分析和本章建模分析的结果,本文利用离散化后的投标人数、成功借款笔数、借款人借款总额、保障方式和借款人信用等级这5个特征,在最佳聚类个数为2的情况下,使用k-modes算法进行聚类分析,结果表明该算法能够非常准确的将借款人聚为“满标”和“已流标”这2类,最终聚类准确率高达99.6%,聚类效果非常好。第5章主要利用NearMiss欠采样、随机森林、BP神经网络和GBDT的方法,对P2P平台识别借款人违约情况的数据进行建模分析。首先,本文利用NearMiss欠采样方法平衡类别。然后,分别利用随机森林、BP神经网络和GBDT等算法,对借款人违约情况进行预警预测分析。本文通过比较分析发现,基于Boosting的GBDT集成学习方法,分类效果最好,准确率达到93%左右,AUC值高达97%,能够有效的对借款人是否存在违约情况进行预测分析。同时,基于选择的特征和最优的GBDT模型,分别加入借款人待还本息、借款人逾期金额、平台垫付金额和借款人严重逾期笔数这4个特征的其中之一,分类准确率均能达到99%左右,而且相对影响力(rel.inf)均在93以上,甚至有的高达99.79,说明这4个特征对模型分类效果影响程度很大。第6章主要总结了本文的工作并指出了不足之处。而且,分别对借款人如何提高借款成功率和P2P网络借贷平台如何提高识别借款人违约概率,提出针对性的具体建议,希望有助于P2P网贷行业的持续和健康发展。
其他文献
猪产肉量的高低和肉品质的优劣主要取决于肌纤维的数量和横截面积大小。骨骼肌的生长发育是个很复杂的生物学过程,受到多种因素的调控,研究表明microRNAs(miRNAs)对其发挥着
股票回购作为灵活实用的价值分配手段和投资退出机制,日趋获得企业管理者的喜爱、股市投资者的认可和政府监管部门的关注。目前,我国资本市场对股份回购的理论研究仍处于不断
华东六省少儿出版联合体简称“华东六少”,是由华东地区的六家专业少儿出版社共同组建的行业联盟,其目的是为了抱团发展,共同应对市场挑战。联合体成员包括二十一世纪出版社
再生冷却是以碳氢燃料为工质对高速飞行器进行冷却的有效热防护方式,可以应用到高压涡轮的冷却方面。本文基于此背景,对旋转状态下U型通道内的碳氢燃料流动和换热特性进行基
汽车模型空气动力学减阻中,主动控制方法分为开环控制和闭环控制。相比开环控制,闭环控制更加灵活方便,具有较强的适应性。本文主要通过闭环控制实现基于单个定常射流激励和
熔融盐作为一种优良的传热蓄热介质,有很多优势并且应用的领域广泛,包括太阳能热发电、生物质热解和核反应堆等。熔盐的工作温度一般都是高温领域,在高温领域的熔盐的物性参
随着通信网络的快速发展,网络技术不断更新,网络规模不断壮大,网络结构越来越复杂,网络中运行的数据也在不断增长,企业和用户对通信网络的安全性、稳定性和可靠性要求越来越
表决马尔可夫可修系统是广泛存在于工程实际中的系统,也是可靠性数学中主要研究的热门模型之一。但在古典表决系统模型中只包含一个修理设备,当它正在修理一个故障部件时,其
森林植被是陆地生物圈的主体,森林碳储量和碳密度的研究对森林碳汇及全球气候变化都具有重要的理论和实践意义。目前针对山西省各山脉森林植被碳储量及空间分布格局的研究较
为了探明尿激酶型纤溶酶原激活剂(uPA)与其特异性受体uPAR对体外牛卵母细胞核成熟的可能作用,本研究采用免疫组织化学染色技术探讨了未成熟的牛卵丘-卵母细胞复合体(cumulus-