论文部分内容阅读
近年来,随着普惠金融理念的普及,P2P网络借贷行业借着普惠金融的“东风”,迎来了行业的第一个高潮,P2P网贷因其能充分发挥个体借贷优势,它可以快捷地为中小企业和低收入个体提供力所能及的金融服务,所以受到了资本的疯狂追捧。正是由于资本的大量涌入,P2P行业在野蛮成长之后,便迎来了一系列风险爆发事件。对于具体的网贷平台而言,在众多的因素当中,用户恶意违约现象是最大的痛点,能否有效地减少高违约率现象,提升恶意违约的识别准确率,是平台防范风险的重要工作内容。针对P2P网络借贷行业普遍存在的高违约率现象,本文试图基于数据不平衡的视角来研究违约问题。首先,介绍了P2P借贷业务的相关概念和数据挖掘模型理论,重点阐述了改进的SMOTE算法的基本思路,从三角形区域和系数的角度,设计了新的人工合成少数类的机制;其次,介绍了粗糙集理论中计算变量重要性的过程,完善了原来的仅依靠随机森林获取重要性的机制,帮助了SMOTE算法合成更佳的少数类样本;然后,以Lending Club数据集为例进行统计分析和数据预处理;接着建立Logistic回归模型、随机森林模型和XGBoost模型,并选择准确率、召回率、F-value、G-mean等评价指标对模型的表现效果进行评估和对比;最后,从每个模型中选择表现最好的RST_new_smt算法,进入模型融合阶段,采用基于召回率的线性加权方法,建立最终的违约识别模型。本文的研究结果表明,本文提出的改进SMOTE算法有助于模型识别违约用户,而且引入的粗糙集理论,有助于选择出合理的重要变量,从而间接地提升模型的识别准确率,这说明基于数据不平衡的视角来研究违约问题是可行的。本文还在Logistic回归模型、随机森林模型和XGBoost模型的基础上,进行模型融合工作,融合后的P2P网贷违约识别准确率具有比单个模型更优的效果。此外,本文建议P2P借贷平台,对于训练数据集应该尽可能地保持完整、干净和易区分,以及利用多种模型来展开违约识别工作。