基于聚类分析以及Boosting族算法的个人信用评估模型研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:xuleiyang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信贷业务是银行业务的重要组成部分,对申请贷款者的还款能力进行评估是信贷业务中极为关键的一个环节。经过多年的发展,信用评估已经形成了一套成熟的方法体系。但是随着大数据时代的到来,基于逻辑回归的传统风控体系的弊端不断凸显。机器学习算法,由于引入了非线性因素,具有更强的拟合能力,能够从海量数据中挖掘出有价值的信息,越来越受到风险评估领域的青睐。因此,如何使用机器学习算法改进现有的信用评估模型,提升模型预测能力是目前信用评估领域的研究重点,这也是本文所探索的。本文在个人信用评估模型中引入了聚类算法,避免出现入模特征的类别单一的情况,保证了各个数据域均有高价值的特征进入模型,从而使得模型能够多角度地衡量借贷人的偿还能力。在使用聚类算法对数据集的所有特征按照自身属性进行分类后,依次对各个类别特征选择合适的特征工程以及集成学习算法构建子模型。再将子模型的训练结果作为新的特征输入到总模型当中,最后完成总模型的构建。本文基于公开数据集,首先使用层次聚类法将经过预处理后的特征分为4类。其次对于各类别特征进行特征工程,通过特征工程挑选出各个类别中具有较强预测能力的变量。再针对4个类别的特征分别构建4个子模型。子模型的建立基于三种主流的Boosting集成学习算法:Xgboost、Light GBM、Catboost。子模型建模的主要思路如下:依次使用上述三种算法和以上述三种算法或三种中的任意两种为基模型的加权投票算法进行建模,再在这4个算法中选择过拟合程度较低且测试集AUC表现最优的算法作为最终子模型使用的算法。总模型的建立考虑到入模特征少且特征预测能力强等因素,不仅考虑使用Xgboost、Light GBM、Catboost和加权投票算法,还考虑使用传统的逻辑回归算法。最终选择测试集上AUC表现最优的逻辑回归完成总模型的建立。本文建立的个人信用评估模型测试集AUC为0.8001且不存在严重的过拟合现象,取得了较为理想的效果。最后,将本文所提出的模型与逻辑回归、Xgboost、Light GBM、Catboost和加权投票模型进行了对比,使用AUC值和KS值为模型评价指标,进一步验证了本文所提出的模型的有效性。该模型有助于进一步实现对现有银行客户的潜在违约风险进行精准评估,对于健全和完善银行的风控评估体系有着重要的价值及意义。
其他文献
文化回应性教学以学生母文化为桥梁,旨在观照学生已有经验,实现学生潜力的发展。乡土文化是乡村地域优秀的文化基因,是乡村学校重要的教学资源,是提升乡村教育质量的内生动力。基于乡土文化的文化回应性教学以乡土文化为学生发展的桥梁,使乡村学生的文化资本得以关注、文化素养得以发展,使乡村学校的文化特色得以彰显,使乡土文化得以传承和创新。鉴于此,基于乡土文化开展文化回应性教学,亟须通过乡村教师文化资本的厚实、乡
期刊
在当前错综复杂的世界局势下,海上目标的检测与识别对于维护国家安全极为重要,因为该技术的好坏将直接影响到我国的国防安全、海上贸易、航行安全等。海面上小目标雷达回波信号微弱,同时伴随着强海杂波。受地形、风速等影响,复杂海杂波呈现出非平稳性和非线性,主要表现为随机性强且波动幅度大。因此,强海杂波下小目标回波不仅信噪低,而且目标特性会被海杂波动态弱化,导致强海杂波小目标检测尤为困难。这也是雷达探测领域研究
学位
1953年新中国工厂为适应计划经济完成定额生产,而重视起本已问题颇多的工人劳动纪律。作为现代工业生产的内在要求,加强工人劳动纪律构成新中国成立初期生产领导实践的重要内容。一般来讲,劳动纪律研究有着道德纪律与技术纪律两个面相,已有劳动纪律研究尚属前者。因此,本文在对劳动纪律进行多面相区分的基础上进行实证研究,并着重观照工厂车间及其内的技术纪律问题。正文第二章节首先通过苏联人所著书册展示苏联社会主义劳
学位
数据挖掘是一项带领人类从数据时代跨越到信息时代的技术。作为数据挖掘中的重要研究课题之一,聚类分析已引起了人们的广泛关注,并被成功应用于视觉分析、模式识别、隐私保护等众多领域。近年来,随着科技的进步,数据的获取、存储等技术取得了显著进展,数据结构越来越复杂,数据体量呈几何级数高速增长,这给聚类分析带来了新的挑战。本文通过分析聚类的相关理论与算法,针对复杂结构数据集的聚类问题展开了研究,主要工作与取得
学位
糖尿病与一系列可表现为糖尿病血管并发症的大血管和微血管病变密切相关。糖尿病下肢缺血(Hindlimb ischemia,HLI)是常见的糖尿病血管并发症之一。即使先天性血管生成可诱导新血管的形成并促进血液灌注以应对轻度HLI患者,但高血糖会造成全身性功能障碍,从而导致血运重建潜能受损。且糖尿病HLI患者由于血管损伤严重、复发率高而更难以治愈且不适用于血管基础治疗。治疗性血管生成旨在诱导内源血管新生
学位
车辆系统动力学仿真与预见控制需要精确的车辆模型,例如多体系统动力学模型。尽管目前存在许多第三方汽车仿真建模与动力学分析软件,如ADAMS等能够较为准确地进行车辆动力学分析,但它们在复杂的驾驶工况下模型求解不稳定,计算效率偏低,在处理碰撞分析和参数不确定性问题时有较大的困难。为了实现车辆特别是智能汽车的预见控制,需要车辆系统的精确实时仿真。本文提出了一种基于深度神经网络算法的数据驱动建模方法,用于计
学位
碳达峰碳中和战略目标下,节能低碳成为发展的必然选择。新能源汽车以高环保度、低能耗优势,成为众多国家汽车产业减排降碳和改善能源消费结构的必然选择。消费者对新能源汽车的意愿支付直接影响其发展推广,与对传统汽车的意愿支付相比,消费者对新能源汽车的意愿支付包含额外的环保意识。随着消费者对新能源汽车意愿支付的提升以及补贴等利好政策实施,我国新能源汽车产销量逐年递增。在新能源汽车与传统汽车竞争阶段,亟需关注消
学位
伴随着轮式移动机器人领域理论研究的深入、科学技术的飞速发展以及基础硬件的更新换代,更高精度的传感器、更快速的处理器、更先进的控制理论都让轮式移动机器人在各种生产生活领域有了展现自身优势的机会。在无人运输领域,轮式移动机器人凭借着简单的车身结构和优秀的承载能力被广泛应用。本文研究的六轮差速移动机器人主要应用于资源站到资源站点对点的物资运输,机器人的六轮差速结构不仅具备轮式机器人的基本优点,还具有良好
学位
我国育龄夫妇生育力呈下降趋势,不孕发病率逐年增长,愈来愈多生育困难的夫妇选择借助辅助生殖技术获得支持;医疗技术水平上,我国辅助生殖技术发展迅速,在综合医院中已逐步取得全面推广应用,截至2020年已增加至536家;国家在政策上陆续发布了“三孩”鼓励政策、辅助生殖机构建设推动政策、辅助生殖相关医疗保障政策等,这些政策都有利于推动辅助生殖医学中心的建设与发展。而全国大部分综合医院在建设之初,往往未考虑辅
学位
作为一种清洁、安全、经济、有效的膜分离技术,超滤(ultrafiltration,UF)在净水处理和污水回用领域发挥着重要作用。然而,超滤在运行过程中,不可避免会产生膜污染。膜污染会大大降低产水量、恶化出水水质、缩短膜使用寿命,从而显著增加投资运行成本。在众多膜污染控制方式中,膜改性可以通过调控膜的本身固有特性,从污染构建的初始阶段有效地减少膜与污染物之间的相互作用,在膜污染控制方面表现出巨大的潜
学位