论文部分内容阅读
本文主要研究的是信用评分模型中的变量选择问题,变量选择不仅是建模过程中需要考虑的问题,也是统计学研究中很重要的问题之一。在建模中不仅要确保选择的变量集合能反映所要研究的对象特性,还要保证得到的结果具有较好的拟合性和预测性。本文主要工作如下:一系统介绍了变量选择的方法:子集选择法和系数压缩法。子集选择法包括AIC值、BIC值和逐步回归法,系数压缩法包括岭回归、LASSO以及自适应LASSO.分析了信用评分模型的发展,变量选择在信用评分模型建立中的关键作用,以及国内外研究现状。二研究了Logistic模型的自适应LASSO变量选择和参数估计,核心是讨论将变量的信息价值作为自适应LASSO的惩罚项权重,以及证明其得到的参数估计量具有Oracle性质。由此构建了基于信息权重的Logistic信用评分模型。三进行了实证分析,主要通过对深交所148家中小企业以及30个信用指标体系变量进行以信息价值为惩罚项权重的自适应LASSO变量选择,建立Logistic信用评分模型,并利用发生比率来解释估计量的含义,并对选择的变量进行经济意义检验,可知模型包含的变量基本涵盖了企业的各项能力指标。最后并通过对比逐步回归法和LASSO两种变量选择法建立的logistic信用评分模型,利用ROC曲线、KS值、WGRP和CIER指标来比较验证三种模型的风险区分能力和估计准确性,得到自适应LASSO建立的Logistic模型要好于其他两种方法得到的模型,也表明了包含信息价值的自适应LASSO变量选择方法在实证检验中具有很好的表现。