融入宏观经济变量的信贷违约预测——基于改进的stacking方法

来源 :东华大学 | 被引量 : 0次 | 上传用户:haihaiboyfei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的不断发展以及信贷市场的不断扩大,互联网金融借贷平台应运而生,且市场规模飞速增长。行业的迅速发展也伴随着巨大的风险,较高的违约率会给互联网金融平台带来巨大的经济损失和破产风险,甚至引发整个行业的系统性风险。所以,利用前沿的机器学习技术来构建高精度的信贷违约预测模型,对风险防控具有重要意义。已有的信贷违约预测研究中,在模型的特征选择方面主要基于贷款信息特征与用户借贷历史特征进行违约风险预测,未考虑外部影响因素如宏观经济变量对于违约概率的影响。信贷违约模型构建方面,现有研究通常选用单一模型进行预测,然而单一模型无法在不同场景下保持稳定,模型融合方法通过融合的方式平均不同模型的预测结果,进而降低预测错误的风险,提高泛化能力,但对这方面的研究还略有不足。为解决上述问题,本文首先从理论上分析了宏观经济变量对信用风险的影响,在此基础上选取了就业率,个人消费支出等宏观经济指标作为贷款信息以外的特征输入预测模型。同时基于模型融合框架构建了一个两层的Stacking算法,选用经典的逻辑回归(LR)模型,以及近年来在信贷违约预测方面表现优异的集成学习算法,包括随机森林(RF),梯度提升树算法(GBDT),极端梯度增强算法(XGB)和轻量梯度提升算法(LGBM)作为基学习器,并在第二层模型中以第一层的预测结果及原始变量作为输入特征。本文使用Lending Club信贷数据集作为研究对象进行数据预处理和实证分析。预处理工作包括通过随机森林对高缺失率的特征进行填补,利用箱线图检测法对异常值进行检测与处理等,并通过贷款发放日期匹配月度的宏观经济变量得到完整数据集。然后对特征进行数据分析,挖掘特征与用户是否发生违约之间的关联性。最后基于方差,IV值以及特征重要性三种方式对特征进行筛选,得到模型的训练和测试样本。在实证分析过程中发现五个单一算法在违约预测方面的表现不俗,其中LightGBM算法的预测效果最优。然后本文对比了仅仅使用贷款特征和加入宏观经济变量信息两种情况下五个单一算法模型的预测效果;其次,针对模型融合框架Stacking,在Stacking的第二层模型构建中,考察了不同的特征组合下基于不同元模型的预测效果。通过对比实验得出主要结论如下:(1)宏观经济变量的引入可以对贷款特征进行补充,提升各贷款违约预测模型的预测效果。(2)在Stacking二层特征选择中,在第一层模型预测结果作为特征的基础上,引入原始的信贷特征和宏观经济变量,元模型选择为随机森林的Stacking二层模型的整体性能表现最优。
其他文献
背景 在中国,新生血管性年龄相关黄斑变性患者中约有40%患有多灶性脉络膜血管病变(polypoidal choroidal vasculopathy,PCV)。PCV会导致反复视网膜色素上皮脱离(pigment epithelium detachment, PED)、广泛的视网膜下或玻璃体内出血,以及严重的视力损失。近年来,已有多种该病的治疗方法在中国使用,临床医生需要获得治疗PCV的全面经验。方
期刊
信用贷款逐渐在人们的生活中普及,越来越多的人使用小贷,分期,信用卡等信贷服务来提升生活的质量。根据统计,消费类贷款余额从2016年末的24.6万亿增长到2021年底的53.3万亿。与此同时,不良贷款余额也在迅速增加。为降低金融机构的信用风险,保证行业的可持续发展,利用机器学习和人工智能技术降低逾期风险具有重要意义。本文以上海某金融科技公司在拉丁美洲的信用贷款交易数据为研究对象,利用Python工具
学位
在我国经济的高速发展下人民生活水平显著提高,促使了第二产业不断调整升级以满足日益膨胀的市场需求。同时,人们开始注重生活品质的提升,对于日常用品的质量也提出了更高标准的要求。由于第二产业在我国产业结构中占据十分重要的地位,在其日产量巨大的背景下,质量控制成为生产过程中不可或缺的一环,缺陷检测具有十分关键的实践意义。目前大部分企业采用的方式是人工目测,但这种方式存在检测效率低、精度失真、稳定性差、成本
学位
近年来,科学技术的进步推动了“互联网+政务服务”的发展,越来越多的政民互动平台进入到大众的视野。这些平台是政府和群众之间交流的重要桥梁,群众可以通过其表达心声,政府可以通过其了解民意、汇聚民智。然而,随着大数据时代的到来,政民互动平台上的留言数量也迅猛增长。如何对这些繁杂的文本数据进行快速分类,从而实现政府和群众之间信息的有效交互成了一个亟待解决的问题。本文以某省政民互动平台的部分真实留言为研究对
学位
目的雷公藤多苷属于中药雷公藤的脂溶性化合物之一,用于多种免疫性疾病的治疗,尤其是狼疮性肾炎(Lupus Nephritis,LN)。本实验使用串联质谱6-plex(Tandem Mass Tag 6-plex,TMT6-plex)标记联合液相色谱串联质谱技术,测定雷公藤多苷治疗前后的LN患者血清蛋白质表达,发现显著性差异蛋白质,并探索差异蛋白质的生物功能及相关信号转导途径。揭示显著性差异蛋白质与雷
学位
由于分位数回归的稳健性,复合分位数回归变得越来越流行。此外,经验证,无论误差项的分布如何,复合分位数回归的效率相较于最小二乘回归高70%。最近几年,复合分位数回归被广泛的运用到了单指标模型的研究中,它在许多科学领域都有广泛的应用,如生物统计学、经济学和金融计量经济学。此外,各领域都呈现数据规模呈指数级别增长的特点,对于超高维数据的情况,本文提出了带有惩罚项的复合分位数回归方法用于单指标模型的参数估
学位
随着我国经济的日益强盛,我国的机动车总数量也在逐年递增,这使得高速公路的压力越来越大。为了缓解人们出行需求的急切增长所导致的高速公路交通供给与需求的矛盾,智能交通系统(Intelligent Transportation Systems,ITS)研究与建设得到关注,其中,高速公路的行程时间预测是智能交通系统实施过程中必不可少的环节,能有效提高公众出行幸福指数。本文的基础数据集是来自广州市机场三元里
学位
由于新冠疫情对我国经济的冲击和破坏,党和政府相继出台了诸多政策帮助小微企业抗击疫情,其中就包括支持商业银行向小微企业提供贷款。为了保障和落实政策,中国银保监会和中国人民银行对商业银行的企业规模划型办法提出了更高的要求。而互联网银行作为新兴的银行形式,因其自身的独特原因在开展企业划型判定上面临着诸多困难。本学位论文选题于工作中的实际问题,在深入分析的基础上,提出了一套集合科学技术与金融场景为一体的小
学位
以色列是世界上导弹防御技术发展较快,也是较早实战部署导弹防御系统的国家之一,这与其长期处于复杂的地缘政治环境,以及美国构建全球反导系统的需要密不可分。多年来,以色列坚持走自主研发与引进相结合的道路,已初步建成一个相对较先进的国家导弹防御体系。文中总结了以色列国家导弹防御体系的发展历程,描述了以色列国家导弹防御体系的作战流程,分析了以色列国家导弹防御体系的作战能力,展望了以色列国家导弹防御体系的发展
期刊
20世纪80年代行为金融理论悄然兴起,传统的资本资产定价模型(CAPM)和有效市场假说(EMH)的权威地位开始受到动摇。行为金融理论认为,内在价值并不是决定市场价格的唯一因素,很大程度上投资者的心理与行为也在影响着市场价格的变化。相较于国外,中国股票市场的投资者构成比较复杂,并且投资者受到信息的来源广泛。来自不同渠道的信息影响着投资者对股票市场的期望和决策,造成股票市场的波动。因此,正确的度量投资
学位