论文部分内容阅读
为满足多样化的借贷需求,各个金融机构的借贷业务迅速扩张。但近年来,全国经济持续低迷,尤其受今年疫情的影响,失业率持续升高,导致贷款者违约可能性大大提高。当大量客户存在违约行为时,无论是商业银行还是借贷公司都会遭受致命打击,因此建立个人借贷违约预警模型对金融机构的风险控制和该领域的长远发展都有重大意义。本文旨在运用主流的数据挖掘技术,建立个人借贷违约预警模型,从而及时预测潜在的违约贷款者,帮助金融机构降低风险,减少经济损失。本文首先对国内外学者的研究成果进行收集、梳理和评价,并阐述了文中所使用的几类算法的基本思想以及特点。然后,利用从国内某金融机构收集的贷款者数据,从信用历史、人际交往、身份特征、行为偏好和履约能力五大因素选取相关变量,对数据进行清洗并计算各个变量的IV值,筛选出IV值大于0.02的变量作为后续建模的依据。接着通过对正常贷款者聚类和分层抽样的方法将正常贷款者样本匹配违约贷款者样本,以此建立24个平衡数据集,做好建模的准备工作。之后,在每个平衡数据集中分别建立神经网络、支持向量机、逻辑回归、决策树、GBDT迭代决策树、随机森林和XGBoost七类个人借贷违约预警模型,并且选择准确度、精确度、召回率、AUC、KS、F1值和GMean值七类评估指标对模型的预测效果进行评估和对比。进而通过主成分综合评价法选取最优的16个模型进行加权线性组合形成主成分组合模型,并将其与七类单一模型预测效果进行比较与分析。研究表明,本文所建立的主成分违约识别组合模型在对个人借贷违约风险的识别中具有比神经网络、支持向量机、逻辑回归、决策树、GBDT迭代决策树、随机森林和XGBoost模型更好的预测效果。从对测试集数据的预测效果来看,主成分违约识别组合模型不仅能够识别相当比例的违约贷款者,还能避免过度误判正常贷款者。因此,本文的研究能够有效辅佐金融机构的风险控制,减少其不必要的经济损失。