论文部分内容阅读
近年来,“互联网+金融”模式的兴起,使传统银行走上了转型发展的新道路。银行信贷业务的互联网化给贷款客户提供了便捷和高效的新体验,但伴随而来的信贷风险是一大难题。因此探究更高效、更好性能的贷款决策模型对于网络贷款业务的发展具有重要意义。Stacking算法是一种模型融合算法,选择异构且性能好的基分类器对Stacking算法具有积极的影响。研究发现,其第一层训练集经过五折交叉训练后,将预测结果直接作为第二层元分类器的训练集,忽略了第一层基分类器的分类效果对元数据集的影响,从而限制了Stacking的融合能力,且Stacking算法对过程处理的依赖性较强,因此,如何使元数据集的组合策略更加有效,如何降低Stacking在数据处理、特征选择、参数设定、基分类器训练等环节的干扰成为本文研究的重点。本文基于优化融合的Stacking算法构造贷款决策模型,具体工作如下:首先,以新兴的XGBoost、LightGBM算法,以及并行集成方法中的随机森林算法作为基分类器,构建出基本的Stacking算法。基于以上问题,本文结合Adaboost中对分类错误样本调整权重的思想,提出自适应权重融合的Stacking算法。即对基学习器训练及预测结束后得到的结果,再次组合训练时先初始化其权重,然后在训练过程中计算误差并不断调整权重,从而使得效果好的基分类器对最终结果有正面的带动。其次,运用优化的XGBoost算法作为训练Stacking贷款决策模型的样本选择方法。XGBoost算法在创建提升树后,能够直接获取属性的重要程度分值,由节点负责加权和记录次数,最终得到重要性评分和排序。本文依据XGBoost算法获得的重要性评分,在scikit-learn中通过SelectFromModel类进行特征选择。这项特征选择方法相较于人工经验选择更加科学化、合理化,有效降低了模型的特征扰动。最后,本文以贷款数据为实验样本,基于模糊的B-XGBoost算法和自适应权重的组合方式,给出了以XGBoost、LightGBM和随机森林为基学习器的优化融合的Stacking贷款决策模型。分析实验结果,发现其AUC值从原来的0.67提升到0.71,自适应权重组合策略优化后的Stacking算法总体性能较优。