论文部分内容阅读
本文利用Logistic回归对国内某商业银行住房贷款申请表数据进行分析,找出与违约风险高度相关的特征变量并建立相应的信用评分模型.
在分析过程中,由于自变量多为分类变量,在对其进行量化时可以按照一定的优先法则转换成离散的数值,再代入模型计算每个分类变量的回归系数;另外一种方法是引入分层的思想,利用效应编码建立虚拟变量,对分类变量的每一种属性分别计算一个回归系数.本文采用这两种方法对同一数据集进行拟合并进行比较,最终发现后者所建立模型的判别效力将明显优于前者.在建模过程中,由于自变量数目较多,因此预先筛选自变量成为一项重要工作.此外,对于划分过细的分类自变量以及连续自变量,直接代入模型计算将导致分析不够稳健,因此还对其属性进行了重新划分.
最终研究表明申请人的教育程度、配偶状况、贷款目的、房屋现状、单位性质、担保方式、还款方式以及年龄等特征变量对违约概率有显著影响.