论文部分内容阅读
信用风险是银行业的一个关键领域,是机构、消费者和监管机构等各种利益相关者共同关注的问题。信用风险的研究是金融领域的热点研究主题,近些年也引起了统计研究者的关注。Wikipedia(2017)将信用风险定义为:由于债务人不支付贷款而造成的损失风险或其他信贷额度。信用风险的核心是违约事件,当债务人不能根据债务合同偿付相关债务、履行法定义务,就发生了违约事件。在银行客户信用风险研究中,仅通过客户是否违约来评价其信用好坏是不够准确的。因为大部分客户在研究期内不会发生违约行为,我们无法观测到大部分个体的生存时间,这就产生了生存分析中常见的右删失数据。在最近这些年,一些研究将生存分析的方法运用到信用风险分析模型中。生存分析是一种动态分析方法,它不仅能预测事件发生的概率,也能预测事件发生的时间。它擅长处理删失数据和截尾数据,利用估计的生存概率可以更加直观地反应风险与特征因素之间的关系。同时在模型中引入时间变量,能更好的体现对象的生存状态。本文基于三年(36期)研究期内60508个样本银行客户420个高维特征变量的小额贷款脱敏数据,在传统的变量选择方法受到挑战的情况下,首先对当今热点的正则化方法进行查阅比较和算法尝试。接着,我们创新性的将违约的跨度时间考虑到信用分析模型中,引入客户首次违约的期数,将数据处理为生存数据的固定格式,并分别建立基于LASSO-MCP正则化方法的Cox乘法危险率模型和基于LASSO-SCAD正则化方法的加法危险率模型。同时,我们将重要变量的系数估计值与对应特征变量取值的乘积作为信用得分,建立分类规则,综合评价每一个客户的信用风险。通过与银行业务经验结果的反馈对比,给出基于生存模型的部分重要特征变量的经济意义。最后,我们从重要特征变量的结果和模型的预测效果两个方面对生存分析的两个模型进行比较。发现基于LASSO-MCP正则化方法的比例风险模型用更少的特征变量却得到了相对更好的分类效果。本文在最后从多个角度对基于不同方法的信用风险分析模型进行效果验证和比较。首先,基于实证数据分别实现传统二分类Logistic回归模型和现代决策树模型。接着,将前述章节中生存分析的乘法模型和加法模型与二者比较。基于理论分析和模型结果,从解释模型准确性的ROC曲线和代表模型区分能力的KS统计量两个方面比较四个模型,发现生存分析Cox模型均优于其他三种模型。这就从多方面验证了本文引入生存时间并基于正则化方法建立的生存分析模型的良好实证效果。从模型整体的准确性和区分力两个方面,综合得出:对于三年期小额贷款数据,基与LASSO-MCP正则化方法的生存分析Cox比例风险模型有最高的准确性和最大的模型区分力。