论文部分内容阅读
P2P网络借贷行业是金融借贷领域的重要组成,在2014年与2015年增长幅度高达300%,在2016年与2017年回归合规增长,但增长势头依旧迅猛。2017年网络借贷行业总成交量达到2.8万亿,投资与借贷人数分别达1.7千万人与2.2千万人。P2P网络借贷市场的资金成本决定其属于次级市场,具有违约风险高的特征。P2P网络借贷中的借贷关系可归结为个人信用问题,因此,有必要提高个人信用评分精度以降低信用风险,保障投资人的利益。当前,个人信用评分模型的构建一般只依赖接受样本,但每年P2P网络借贷中的拒绝样本量常常占总借款申请量的90%,抛弃拒绝样本只利用接受样本建模,在非随机数据缺失机制下将导致样本选择性偏差,降低个人信用评分模型的预测准确性,因此有必要利用拒绝推断的方法将拒绝样本融入“个人信用评分模型训练集”中。使用统计方法(外推法与倍增法)与半监督学习算法(CPLE_LightGBM、S3VM、CPLE_RF、CPLE_LR)预测被拒绝样本的履约违约状况,获得全样本数据集。采用监督学习算法(LightGBM、SVM、RF、LR)构建基准模型。基于人人贷与Lendingclub两个借贷平台的数据集进行实证分析,结果显示:(1)拒绝推断能够提高个人信用评分模型的预测精度,且精度的提升主要源于对违约客户预测正确性的提高。(2)基于不同算法构建的个人信用评分模型的预测结果间存在统计意义上的差异,其中拒绝推断条件下CPLE_LightGBM P2P网络借贷个人信用评分模型的预测效果最优,该模型的构建与引入在P2P网络借贷个人信用评分领域存在实际意义。(3)拒绝推断过程中,训练集的构成对个人信用评分模型的预测结果存在影响。