基于XGBoost的互联网金融贷前逾期识别与模型表达

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:xiertimer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文主要基于XGBoost(eXtreme Gradient Boosting极限梯度提升)模型,研究在互联网金融场景中对有贷前逾期风险的用户进行识别的问题,并通过强大的SHAP(SHAPley夏普利)解释框架对模型进行可视化表达。为了研究这一问题,本文选取了融360企业提供的公开数据集,在万级数据量以及匿名变量的场景中,实现对变量的清洗、模型的构造、比较、可视化,以此说明XGBoost模型的高精度以及在贷前逾期场景中可解释性。本文一方面综合考虑各种变量的性质,对匿名变量的缺失值进行有规律地插补,以实现对变量的清洗,避免“垃圾进、垃圾出”(Garbage In Garbage Out)的情况发生。另一方面,通过控制训练集和测试集的一致性,构造了逻辑回归(LR)、随机森林(RF)、梯度提升决策树(GBDT)三个模型,将这三个经典模型作为基线模型,通过精度对比说明XGBoost模型的优良性。为了让模型评估指标更贴合实际场景,本文选取了三大类七个指标综合地评判各个模型的识别效果。评价指标中包括模型的排序能力、对正样本的识别能力等,并构造了预期收益这一指标替代常规的准确率指标。进一步地,为了提升模型的精度,本文对所建立的XGBoost模型进一步进行超参数调优。最后,利用对集成模型的解释框架SHAP,将这一模型中各个变量的价值进行可视化处理,从变量角度和样本角度分别进行可视化,实现模型表达的效果。并在匿名变量的场景下进行模拟解释,以便更好地解读其经济管理含义。
其他文献
当前,我国小型农田水利工程建设和管理方面存在一些问题,在一定程度上影响小型水利工程发展。此种情况下,需要对小型水利工程建设和管理进行详细分析,找出问题的根本原因,制
独立学院是我国社会经济和教育发展的产物,是我国目前普通高等教育中不可或缺的教学型院校,而会计专业是独立学院普遍开设的专业。随着经济全球化进程的加快,对会计专业人才
随着BIM技术在中国的发展,本文提出了一种基于BIM应用于商品房菜单式全装修方式,试图改善传统方式的不足,最后提出这种方式的应用预测。
学校德育工作是一个复杂的系统工程,为了提高德育的实效性,学校德育工作应利用具有德育氛围情境和德育能量的一切时空形态和现实背景,多视觉、多渠道、多层面地进行,应建构一
在电影发展史上,电影和绘画之间的媒介关系如同蜿蜒前行的两条曲线,时而相交相切、时而回溯并进。本文以波兰导演莱彻·玛祖斯基的影片《磨坊与十字架》、奥地利导演古斯塔夫
通过对河头水库弃渣场周边水文、地质、气候以及弃渣场现状等重点分析,进行水土保持措施总体布置设计,并且对主要采用的浆砌石挡渣墙、三维土工网垫、周边截排水工程以及后期
目的探讨舒血宁注射液用于血管性痴呆(VD)治疗的临床疗效。方法选取在我院就诊的124例血管性痴呆(VD)患者,随机分为治疗组和对照组各62例,治疗组采用常规治疗并辅以舒血宁注
部分中小企业为何经过短期的发展后,出现停滞不前,甚至走向破产倒闭,这种“短命”现象,与企业的人才缺乏和人力资源开发力度不够有着十分密切的关系。
本文从新课程的特点来管窥教师角色的变化,深入阐述了教师角色在新课程中应转化为课程的开发者、建设者、研究者、创造者、反思者、改进者、合作者、协调者,以及学生发展的引
本文以会计信息质量为研究重点,探讨会计信息失真问题,剖析信息失真原因,提出解决措施。