论文部分内容阅读
2017年央行将防范金融风险作为今年的第三大任务,在此背景下,作为一个金融市场发展尚未成熟的国家,做好信用评估势在必得。信用评分模型在传统金融业已经较为成熟,但是随着大数据时代的到来和互联网金融的转型,大数据思维下的信用评分模型也要随之改变。平安集团下的前海征信企业有着大量的用户个人信用相关信息。对其提供的4万条脱敏数据,本文使用大数据技术进行分析和研究。由于数据量庞大、缺失值多、稀疏度和维度高等特点,本文首先采用个案剔除和均值填充的组合方法处理缺失值,然后利用Boruta特征选择法来降维。接着运用XGBoost算法集成CART弱学习器,建立信用评分模型,期间选择AUC值作为评优准则,设定目标函数为logistic函数,并对样本进行子采样和对目标函数加入正则化系数来防止模型过拟合。最终通过对比传统Logistic回归法和GBDT算法,发现XGBoost的测试AUC最好(AUC=0.7040),训练耗时最短(Time=18.59s),体现该模型的优越性。此外模型得到了各变量的相对重要性排序,User Inofo130,User Inofo113和User Inofo197等特征变量相对重要性最高,需要进行重点业务分析。本文为前海征信企业提供了大数据技术下的信用评分模型,并且选取了重要业务变量,具有较强的实用性和推广性。