论文部分内容阅读
伴随着互联网金融等行业的快速发展,人们的消费理念发生了巨大的改变,信用消费已成趋势,与此同时越来越多的互联网金融企业研发并推出了自己的个人信用消费产品,类似于京东白条、任性付(苏宁易购)、蚂蚁花呗(阿里巴巴)等等。中国是一个拥有14亿人口的经济大国,从而形成了庞大的信贷市场,据《2017中国消费金融创新报告》预测,中国到了2020年的全年消费信贷金额可以达到惊人的12万亿元人民币,一举成为世界范围内最大的消费金融市场。由于目前我国互联网金融尚处于起步阶段,信用风险管理模式还不成熟,如何对申请贷款客户的信用进行合理评估是各大金融机构避免风险的关键,建立科学的个人信贷风险评估模型能够帮助金融机构有效地规避潜在风险。对个人信贷风险评估结果产生影响的因素可能有许多,例如年龄、国籍、家庭收入、学历等等,正确选择主要影响因素作为变量进行建模是提高模型预测准确率和增强模型可解释性的前提。目前常用于变量选择的方法主要有最优子集选择法(Subset Selection)以及系数收缩方法(CoefficientShrinkage)。其中Lasso方法可以作为系数收缩方法的代表,该方法能够连续地进行变量选择,其在完成变量筛选过程的同时也获得了参数的估计,能够有效克服最优子集选择法进行选择变量时不稳定等缺点。但是Lasso方法无法处理具有组效应的变量选择问题,而组Lasso方法(Group Lasso)又只能进行组水平变量选择,无法进行组内变量选择,为了解决这个问题,Friedman等人综合了Lasso和组Lasso方法的特性提出了稀疏组Lasso方法(Sparse Group Lasso),该方法既能在组间进行变量选择又能使组内变量具有稀疏性。本文首先对用来解决变量选择问题的两类主要方法——最优子集选择法和系数压缩方法进行了详细介绍,接着研究了稀疏组Lasso方法在线性回归模型框架和Logistic回归框架下的理论推导,并分别与基于Lasso方法和基于组Lasso方法的Logistic回归模型进行对比模拟实验,说明其在模型选择方面的优越性。最后,我们把稀疏组Lasso-Logistic模型应用到了个人信贷数据中,通过对实证结果进行分析,说明稀疏组Lasso-Logistic模型在个人信贷风险预测上具有良好的表现。