论文部分内容阅读
摘 要:随着个人小额网络消费信贷的爆发式增长,通过互联网数据分析实现快速准确征信成为一个重要问题。互联网征信面临的一个挑战是数据变量众多带来的“维灾难”问题,而目前互联网征信中常用的logistic模型在高维数据时无法取得令人满意的效果。本文将lasso-logistic引入互联网征信模型来解决这一问题,并利用互联网小额信贷平台数据进行实证研究。实证研究中,以AUC(Area Under Curve)值为评价指标,lasso-logistic模型优于全变量logistic回归模型。
关键词:个人信用评分 lasso-logistic 特征选择 实证研究
一、引言
面向个人消费的互联网小额信贷近年来风生水起。由于互联网小额信贷无需抵押和担保,唯一依靠的就是个人或者企业的信用,因此建立征信模型极其重要。传统征信模型数据采集成本高,数据来源单一,不能全面且准确地刻画客户的信用情况。而互联网征信模型借助互联网平台的海量信息可以帮助我们快速准确地完成这一过程。根据互联网平台的海量数据建立个人征信模型,基于模型来准确划分新客户的信用等级可以有效地控制贷款对象的信用风险并更好地进行客户关系管理。作为信用风险评估的基础和核心,征信模型的构建显得十分必要。
互联网征信模型有一大特点。互联网征信的变量指标多。随着互联网的快速发展,可以用来建立征信模型的变量指标呈指数增长,相比于传统征信,互联网征信需要处理一个更加庞大的评价指标体系,且数据呈现动态变化的特征。如何从众多指标中,选出对个人信用影响最大的少数关键指标,成为建模过程首要难题。logistic 模型是现有征信的一个基本模型,而该模型在处理高维数据时无法取得令人满意的建模效果。针对互联网征信模型的这一特点,本文将lasso-logistic模型引入征信问题,将其与传统全变量logistic回归模型进行对比。实证研究表明lasso-logistic模型能有效解决“维灾难”问题,它比传统全变量logistic回归模型具有更高的预测精度和更低的误分类成本。
二、文献综述
征信模型目前主要的方法有统计方法和机器学习方法,统计学習方法有logistic方法、多元判别分析、多元线性回归、数学规划法等,机器学习有SVM、神经网络、决策树等。其中 logistic模型由于预测准确率高、计算简便而被广泛使用。例如,于立勇等人通过logistic回归模型构建了违约概率的测算模型。大量的实证研究证明,利用logistic模型解决征信问题有很强的实用性。但是本文研究的互联网征信需要分析一个庞大的评价指标体系,数据量大,研究难度更大,传统的全变量logistic模型无法解决多重共线性问题,会接受大量冗余变量,模型的可解释性低,建模效果欠佳。如何通过特征选择解决变量过多给logistic模型所带来的问题,是一个值得深究的课题。
lasso是一种嵌入的特征选择方法。1996年,Tibshirani 首次提出了lasso方法,通过将部分变量的系数压缩为0可以同时实现变量选择和参数估计。之后,涌现出众多将lasso应用于一般线性回归模型的研究。2001年,Fan 和Li将lasso应用于广义线性模型,提出惩罚似然函数的方法。Shi 等人、 Uh 等人以及 Park and Hastie将lasso与logistic回归相结合,为lasso的应用做出了巨大贡献。lasso-logistic 回归模型估计系数是在对数似然函数上加一个惩罚项,本文研究lasso在具体征信问题中的应用效果。
三、实证研究
1.数据说明。本文数据是中国某互联网小额消费信贷平台的商业数据。该数据集共有24837条个人记录,每条记录包含顾客个人情况属性和顾客“违约”、“非违约”标签变量,共1112个变量。个人情况属性涵盖个人基本信息、信用交易信息、特殊交易信息及部分网络交易信息。个人基本信息包括个人身份信息和职业信息等;信用卡交易信息由信用卡明细信息、卡类型、信用额度、共享授信额度、最大负债额度、授信额度、透支余额和已使用额度、账户状态、信用卡逾期期数和逾期额度、未还最低还款额次数等数据来反映;特殊交易信息记录是指在信贷业务过程中发生的展期、延期、担保人代还、以资抵债等方面的有关信息。在该数据集中共22739个“非违约客户”、2098个“违约客户”。
数据预处理是建立模型预测的关键,直接影响最终预测结果的准确性。首先,我们删除了缺失值超过50%的变量,采用每列均值对剩下的577个变量进行插补。然后为解决变量严重左右偏及消除量纲对数据结构的影响,对数据进行对数化纠偏及中心化处理。最后,依据客户的所属时间段,我们将数据集随机划分为训练集和测试集,训练集包含20824个记录,剩下的4013个记录作为测试集。在训练集上训练模型,在测试集上检验模型效果。
为了验证lasso-logistic模型的有效性,本文将传统的全变量logistic互联网个人征信模型作为对比基准。
2.实验结果分析与讨论。构建lasso-logistic模型时,在调整惩罚系数 的取值过程中,AUC值随值调整而变化。当取值为0.0111时,AUC值最大。因此lasso-logistic模型最终选择的值为0.0111。根据两模型的ROC曲线图所示,lasso-logistic 模型的ROC曲线在logistic模型的ROC曲线上方,说明在特异度相同的条件下,lasso-logistic模型的灵敏度高于logistic 模型,而灵敏度相同的条件下,lasso-logistic 模型的特异度也高于logistic 模型。对比两模型的AUC值,lasso-logistic 模型的AUC值为0.6969,而logistic模型的AUC值仅有0.5411,lasso-logistic 模型的AUC值高于logistic模型。从模型的可解释性来看,logistic模型没有剔除变量,将所有解释变量作为影响互联网征信风险的因素。而lasso-logistic模型剔除了562个变量,最终只剩下14个变量,其比传统全变量logistic模型可解释性更强。据此,我们得出结论在只以模型精度为衡量指标时,基于互联网信用评分的lasso-logistic模型比传统全变量logistic模型具有更强的预测能力。 四、結语
本文将lasso-logistic模型引入互联网征信,将其与全变量logistic回归模型进行比较分析,结果表明lasso-logistic模型具有更高的AUC值以及更强的可解释性。该比较结果反映出传统logistic回归模型因选择过多冗余变量及不相关变量而导致较差的预测效果,而lasso具有特征选择功能,能筛选出重要变量,避免多重共线性,使得模型具有更好的预测表现。
参考文献:
[1]石庆焱, 靳云汇. 个人信用评分的主要模型与方法综述[J]. 统计研究, 2003, 20(8):36-39.
[2]朱晓明, 刘治国. 信用评分模型综述[J]. 统计与决策, 2007(2):103-105.
[3]Khashman A. A neural network model for credit risk evaluation.[J]. International Journal of Neural Systems, 2009, 19(4):285-94.
[4]Davoodabadi Z, Moeini A. Building Customers` Credit Scoring Models with Combination of Feature Selection and Decision Tree Algorithms[J]. Advances in Computer Science An International Journal, 2015, 4(2).
[5]于立勇, 詹捷辉. 基于Logistic回归分析的违约概率预测研究[J]. 财经研究, 2004, 30(9):15-23.
[6]Tibshirani R. Regression shrinkage and selection via the lasso: a retrospective[J]. Journal of the Royal Statistical Society, 2011, 73(3):273–282.
[7]Fu W J. Penalized Regressions: The Bridge versus the Lasso[J]. Journal of Computational & Graphical Statistics, 1998, 7(3):397-416.
[8]Fan J, Li R. Variable Selection via Nonconcave Penalized Likelihood and its Oracle Properties[J]. Journal of the American Statistical Association, 2001, 96(456):1348-1360.
[9]Shi W, Lee K E, Wahba G. Detecting disease-causing genes by LASSO-Patternsearch algorithm[J]. BMC Proceedings, 2007, 1(1):S60.
[10]Uh H W, Mertens B J, Wijk H J V D, et al. Model selection based on logistic regression in a highly correlated candidate gene region[J]. BMC Proceedings, 2007, 1(1):S114.
[11]Park Y M, Hastie T. L1 regularization path for generalized linear models and cox proportional hazards model[J]. Cancer, 2013, 104:290-298.
关键词:个人信用评分 lasso-logistic 特征选择 实证研究
一、引言
面向个人消费的互联网小额信贷近年来风生水起。由于互联网小额信贷无需抵押和担保,唯一依靠的就是个人或者企业的信用,因此建立征信模型极其重要。传统征信模型数据采集成本高,数据来源单一,不能全面且准确地刻画客户的信用情况。而互联网征信模型借助互联网平台的海量信息可以帮助我们快速准确地完成这一过程。根据互联网平台的海量数据建立个人征信模型,基于模型来准确划分新客户的信用等级可以有效地控制贷款对象的信用风险并更好地进行客户关系管理。作为信用风险评估的基础和核心,征信模型的构建显得十分必要。
互联网征信模型有一大特点。互联网征信的变量指标多。随着互联网的快速发展,可以用来建立征信模型的变量指标呈指数增长,相比于传统征信,互联网征信需要处理一个更加庞大的评价指标体系,且数据呈现动态变化的特征。如何从众多指标中,选出对个人信用影响最大的少数关键指标,成为建模过程首要难题。logistic 模型是现有征信的一个基本模型,而该模型在处理高维数据时无法取得令人满意的建模效果。针对互联网征信模型的这一特点,本文将lasso-logistic模型引入征信问题,将其与传统全变量logistic回归模型进行对比。实证研究表明lasso-logistic模型能有效解决“维灾难”问题,它比传统全变量logistic回归模型具有更高的预测精度和更低的误分类成本。
二、文献综述
征信模型目前主要的方法有统计方法和机器学习方法,统计学習方法有logistic方法、多元判别分析、多元线性回归、数学规划法等,机器学习有SVM、神经网络、决策树等。其中 logistic模型由于预测准确率高、计算简便而被广泛使用。例如,于立勇等人通过logistic回归模型构建了违约概率的测算模型。大量的实证研究证明,利用logistic模型解决征信问题有很强的实用性。但是本文研究的互联网征信需要分析一个庞大的评价指标体系,数据量大,研究难度更大,传统的全变量logistic模型无法解决多重共线性问题,会接受大量冗余变量,模型的可解释性低,建模效果欠佳。如何通过特征选择解决变量过多给logistic模型所带来的问题,是一个值得深究的课题。
lasso是一种嵌入的特征选择方法。1996年,Tibshirani 首次提出了lasso方法,通过将部分变量的系数压缩为0可以同时实现变量选择和参数估计。之后,涌现出众多将lasso应用于一般线性回归模型的研究。2001年,Fan 和Li将lasso应用于广义线性模型,提出惩罚似然函数的方法。Shi 等人、 Uh 等人以及 Park and Hastie将lasso与logistic回归相结合,为lasso的应用做出了巨大贡献。lasso-logistic 回归模型估计系数是在对数似然函数上加一个惩罚项,本文研究lasso在具体征信问题中的应用效果。
三、实证研究
1.数据说明。本文数据是中国某互联网小额消费信贷平台的商业数据。该数据集共有24837条个人记录,每条记录包含顾客个人情况属性和顾客“违约”、“非违约”标签变量,共1112个变量。个人情况属性涵盖个人基本信息、信用交易信息、特殊交易信息及部分网络交易信息。个人基本信息包括个人身份信息和职业信息等;信用卡交易信息由信用卡明细信息、卡类型、信用额度、共享授信额度、最大负债额度、授信额度、透支余额和已使用额度、账户状态、信用卡逾期期数和逾期额度、未还最低还款额次数等数据来反映;特殊交易信息记录是指在信贷业务过程中发生的展期、延期、担保人代还、以资抵债等方面的有关信息。在该数据集中共22739个“非违约客户”、2098个“违约客户”。
数据预处理是建立模型预测的关键,直接影响最终预测结果的准确性。首先,我们删除了缺失值超过50%的变量,采用每列均值对剩下的577个变量进行插补。然后为解决变量严重左右偏及消除量纲对数据结构的影响,对数据进行对数化纠偏及中心化处理。最后,依据客户的所属时间段,我们将数据集随机划分为训练集和测试集,训练集包含20824个记录,剩下的4013个记录作为测试集。在训练集上训练模型,在测试集上检验模型效果。
为了验证lasso-logistic模型的有效性,本文将传统的全变量logistic互联网个人征信模型作为对比基准。
2.实验结果分析与讨论。构建lasso-logistic模型时,在调整惩罚系数 的取值过程中,AUC值随值调整而变化。当取值为0.0111时,AUC值最大。因此lasso-logistic模型最终选择的值为0.0111。根据两模型的ROC曲线图所示,lasso-logistic 模型的ROC曲线在logistic模型的ROC曲线上方,说明在特异度相同的条件下,lasso-logistic模型的灵敏度高于logistic 模型,而灵敏度相同的条件下,lasso-logistic 模型的特异度也高于logistic 模型。对比两模型的AUC值,lasso-logistic 模型的AUC值为0.6969,而logistic模型的AUC值仅有0.5411,lasso-logistic 模型的AUC值高于logistic模型。从模型的可解释性来看,logistic模型没有剔除变量,将所有解释变量作为影响互联网征信风险的因素。而lasso-logistic模型剔除了562个变量,最终只剩下14个变量,其比传统全变量logistic模型可解释性更强。据此,我们得出结论在只以模型精度为衡量指标时,基于互联网信用评分的lasso-logistic模型比传统全变量logistic模型具有更强的预测能力。 四、結语
本文将lasso-logistic模型引入互联网征信,将其与全变量logistic回归模型进行比较分析,结果表明lasso-logistic模型具有更高的AUC值以及更强的可解释性。该比较结果反映出传统logistic回归模型因选择过多冗余变量及不相关变量而导致较差的预测效果,而lasso具有特征选择功能,能筛选出重要变量,避免多重共线性,使得模型具有更好的预测表现。
参考文献:
[1]石庆焱, 靳云汇. 个人信用评分的主要模型与方法综述[J]. 统计研究, 2003, 20(8):36-39.
[2]朱晓明, 刘治国. 信用评分模型综述[J]. 统计与决策, 2007(2):103-105.
[3]Khashman A. A neural network model for credit risk evaluation.[J]. International Journal of Neural Systems, 2009, 19(4):285-94.
[4]Davoodabadi Z, Moeini A. Building Customers` Credit Scoring Models with Combination of Feature Selection and Decision Tree Algorithms[J]. Advances in Computer Science An International Journal, 2015, 4(2).
[5]于立勇, 詹捷辉. 基于Logistic回归分析的违约概率预测研究[J]. 财经研究, 2004, 30(9):15-23.
[6]Tibshirani R. Regression shrinkage and selection via the lasso: a retrospective[J]. Journal of the Royal Statistical Society, 2011, 73(3):273–282.
[7]Fu W J. Penalized Regressions: The Bridge versus the Lasso[J]. Journal of Computational & Graphical Statistics, 1998, 7(3):397-416.
[8]Fan J, Li R. Variable Selection via Nonconcave Penalized Likelihood and its Oracle Properties[J]. Journal of the American Statistical Association, 2001, 96(456):1348-1360.
[9]Shi W, Lee K E, Wahba G. Detecting disease-causing genes by LASSO-Patternsearch algorithm[J]. BMC Proceedings, 2007, 1(1):S60.
[10]Uh H W, Mertens B J, Wijk H J V D, et al. Model selection based on logistic regression in a highly correlated candidate gene region[J]. BMC Proceedings, 2007, 1(1):S114.
[11]Park Y M, Hastie T. L1 regularization path for generalized linear models and cox proportional hazards model[J]. Cancer, 2013, 104:290-298.