论文部分内容阅读
在当今社会,由于小微企业和个人存在规模小、经营风险高等问题,很难从传统金融机构中获得贷款,导致小微企业和个人面临着融资难的问题。幸运的是,互联网作为一种重要的技术手段,可以有效降低审查的风险和成本,实现运作的透明化,使小额贷款成为可能。正是在互联网迅速发展的背景下,P2P网络借贷在我国金融行业里得以快速发展。然而,近年来P2P网络借贷存在着大量非法经营的事件。比如,平台中存在的非法集资、高管跑路和提现困难等问题也是屡见不鲜。因此,通过机器学习和神经网络等大数据分析方法,探究显著影响借款人满标的因素,帮助借款人提高借款成功率;探究如何提高借贷平台识别借款人违约情况的能力,选出显著提高P2P网络借贷平台预测借款人违约概率的模型,为提升借贷平台识别借款人违约情况的预警能力具有指导意义。第1章主要介绍P2P网络借贷的研究背景和研究意义以及本文的研究框架和组织架构;国内外针对P2P网络借贷平台和不平衡数据处理的研究现状。第2章主要介绍P2P网络借贷数据的来源以及对数据中缺失值的处理、异常值的判断和相关特征的变换。同时,分别对影响借款人满标因素的数据和P2P平台识别借款人违约情况的数据进行探索性数据分析,初步探究出投标人数、成功借款笔数、借款人借款总额和保障方式这4个特征是显著影响满标的因素以及平台垫付金额、借款人逾期金额、借款人严重逾期笔数、借款人逾期次数和借款人待还本息这5个特征也是明显影响借款人是否能够成功借款的因素。第3章主要利用方差选择法、spearm相关系数法、基于树模型的特征选择法和递归式特征消除法这4种方法进行特征的选择。对于影响借款人满标因素的数据,选择了借款人信用等级、还款期限、借款人信用额度、年利率、借款人申请借款笔数、借款人年龄和标的总额这7个特征;对于P2P平台识别借款人违约情况的数据,选择了借款人信用等级、年利率、借款人申请借款笔数、还款期限、借款人信用额度、借款人收入和借款人学历这7个特征。第4章主要利用Logistic回归、CART决策树和k-modes聚类分析的方法,对影响借款人满标因素的数据进行建模分析,主要研究哪些因素显著影响借款人满标概率。首先,当利用Logistic回归探究显著影响借款人满标的因素时发现,自变量借款人信用等级、借款人信用额度、还款期限、年利率、借款人申请借款笔数和标的总额都是显著影响借款人能否成功贷款的因素。然后,当进一步利用CART决策树进行分类时发现,借款人信用等级和借款人信用额度这两个特征影响程度最大。并且,当信用等级为“AA和A”和信用额度大于3250时,借款人满标的概率更大。最后,基于第2章的探索性数据分析和本章建模分析的结果,本文利用离散化后的投标人数、成功借款笔数、借款人借款总额、保障方式和借款人信用等级这5个特征,在最佳聚类个数为2的情况下,使用k-modes算法进行聚类分析,结果表明该算法能够非常准确的将借款人聚为“满标”和“已流标”这2类,最终聚类准确率高达99.6%,聚类效果非常好。第5章主要利用NearMiss欠采样、随机森林、BP神经网络和GBDT的方法,对P2P平台识别借款人违约情况的数据进行建模分析。首先,本文利用NearMiss欠采样方法平衡类别。然后,分别利用随机森林、BP神经网络和GBDT等算法,对借款人违约情况进行预警预测分析。本文通过比较分析发现,基于Boosting的GBDT集成学习方法,分类效果最好,准确率达到93%左右,AUC值高达97%,能够有效的对借款人是否存在违约情况进行预测分析。同时,基于选择的特征和最优的GBDT模型,分别加入借款人待还本息、借款人逾期金额、平台垫付金额和借款人严重逾期笔数这4个特征的其中之一,分类准确率均能达到99%左右,而且相对影响力(rel.inf)均在93以上,甚至有的高达99.79,说明这4个特征对模型分类效果影响程度很大。第6章主要总结了本文的工作并指出了不足之处。而且,分别对借款人如何提高借款成功率和P2P网络借贷平台如何提高识别借款人违约概率,提出针对性的具体建议,希望有助于P2P网贷行业的持续和健康发展。