论文部分内容阅读
近年来,随着经济的快速发展,人们的消费观念也随之改变,人们越来越倾向于提前消费,越来越多的人向银行或者商业公司等金融机构申请贷款,申请人往往关心能否被授予贷款。银行等金融机构则关注申请人是否能按事先约定的时间偿还贷款,他们应用信用评分模型来作为评估个人信用评分的工具,判断是否将贷款授予申请人,同时预测申请人是违约顾客还是信誉顾客。如何将银行等金融机构的损失降到最小,使利润获得最大,是信用决策者一直关注的问题,因此,建立合适有效的信用评分模型显得尤为重要。本文采用非平衡个人信用数据,在对非平衡数据进行预处理时,采用重抽样方法中的随机过抽样方法,应用模型选择影响个人信用评分的因素时,采用传统的Logistic回归方法,以及在Logistic回归方法上进行改进的Lasso-Logistic回归、Adaptive Lasso-Logistic回归三种方法,Lasso-Logistic回归在似然函数上加了惩罚项,Adaptive Lasso-Logistic回归在惩罚项上加权重,对不同的回归系数给予不同的惩罚,即用适应性的权重来惩罚不同的系数,在计算系数权重时,Adaptive Lasso-Logistic回归方法分别将极大似然估计和岭估计作为最初的估计,通过对个人信用评分数据的分析,以最小误分类错误和预测精度作为衡量标准,并采用ROC曲线进行验证,分析比较几种方法在信用评分中的预测结果。通过对信用数据应用上述几种方法,实践结果表明,Logistic回归及其改进的方法都具有很好的稳健性和可解释性,相比较而言,Logistic回归的预测精度确是最低的,而误分类错误也是最高的,由于Lasso-Logistic回归在Logistic回归方法上进行了惩罚估计,其选择了相对较少的变量,降低了模型的复杂度,并且提高了模型的预测精度,减少了误分类错误。Adaptive Lasso-Logistic回归方法给予每个系数适应性的权重,最初估计选用极大似然估计时,模型表现出最好的预测精度以及最低的误分类错误,同时第I类错误和第II类错误也都降到了最低。而选用岭回归作为最初估计时,表现仅次于采用极大似然估计时,无论是分类准确性还是预测准确性都较Lasso-Logistic回归高,第I类和第II类错误,以及总的误分类也低于Lasso-Logistic回归。