互联网消费信贷违约预测研究 ——基于聚类平衡算法的两阶段分类模型

来源 :西南财经大学 | 被引量 : 0次 | 上传用户:qqokliuqiokqq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来互联网消费信贷业务快速增长,但同时由于信贷业务的特殊性,存在数据不平衡问题,并且目前的相关研究普遍将违约预测作为二分类问题,仍需进一步细化。此外,目前研究中模型评价方式仅考虑模型预测的准确性指标,少有研究考虑实际财务成本。因此,目前研究离实际业务存在一定的距离,有进一步探究的空间。本文获取了2个数据集,分别含有39927个和7275个样本的互联网消费信贷违约情况。其中,数据集1用于建模与分析,数据集2用于稳健性检验。基于生命周期理论和计划行为理论,本文选择了若干指标作为信贷违约预测的初始特征,随后基于此进行了特征挖掘。在建模方面,将贷款违约预测问题拓展为多分类问题,将用户分为“正常”“逾期未坏账”和“逾期且坏账”三类,本文采用了两阶段的二分类算法进行了研究。在第一阶段中,预测用户是否会逾期,对预测结果为“正常”的用户进行放款,对预测结果为“逾期”的用户进行第二阶段的预测,预测其逾期天数是否会超过90天,即是否会转变为坏账。第二阶段中,对预测结果为“逾期未坏账”的用户进行放款,对“逾期且坏账”的用户拒绝放款。针对这种数据不平衡的问题,本文采用了一种基于聚类的均值平衡算法。首先,使用mean-shift方法将大类样本进行了聚类,然后通过对聚类后产生的各个小集群分别进行了下一步的降采样。然后,再将这些采样后的结果汇总,与原来数据集中的小类样本进行融合后,生成新的非均衡数据集。这一算法降低了数据的不平衡程度,并且通过聚类算法尽可能多地保留了具有代表性的数据。在模型评估方面,本文将实际财务成本引入模型评价指标中,并基于两阶段分类模型,将二维成本矩阵拓展为多分类的成本矩阵,拓展后的成本矩阵共包含6种情况,分别为“正常”“逾期未坏账”和“逾期且坏账”这3种类别被误判为其余2种类别时的成本情形。例如,当模型未能识别“逾期且坏账”的用户时,成本为损失的贷款本金与额外产生的催收成本之和;模型将“正常”用户误判为“逾期且坏账”用户时,成本为本来能够获得的利息收入。最后,再根据模型评估结果将所有的成本进行加总,得到模型预测结果的总成本,作为模型评估指标之一。建模时,设置了对照组和实验组,仅实验组采用基于聚类的平衡算法,经过随机森林模型、逻辑回归模型、成本敏感决策树模型和XGBoost模型的实证研究得出,实验组的准确率和AUC指标略高于对照组,说明基于聚类的平衡算法有助于提高模型的准确率。同时,实验组的savings score也普遍高于对照组。例如,在随机森林模型中,对照组的savings score为3.20%,实验组的savings score提升到了13.09%,表明实验组比对照组多节约近10%的成本。在实际业务中意味着基于聚类的两阶段分类模型能够为贷款平台节约更多的财务成本,提高经济效益,表明该模型具有一定的实际意义。此外,通过数据集2的进一步验证,得到相似的结论,说明该结论具有一定的稳健性与普适性。
其他文献
信访系统是法院收集群众意见、接受人民诉求的重要途径。传统的法院信访工作多由人工进行,其步骤繁琐导致工作效率极低,以至于大部分的诉讼请求无法得到及时处理。在XX市中级人民法院现有的《法院审判流程管理系统》中,原有信访信息管理模块功能单一、涵盖面窄,不能很好的满足法院信访工作的需求,因此,基于计算机系统与信息技术的发展,建立一套科学有效、安全稳定、操作便捷、鲁棒性强的电子信访信息管理系统,是提高法院信
作为地方政府重要的融资方式,通过城投债募集资金是满足地方城市基础设施建设资金需求的主要来源,由于发行主体多具有政府背景,市场普遍认为此类债券存在政府的财政背书。随着近年来信用债市场上违约事件频繁发生,信用债市场尤其是城投债被学术界广泛关注。但以往的相关研究基本都以政府的隐性担保为切入点,探究债券风险利差影响因素,较少有关地方政府在城投类债券发行前对于融资平台的各类财务支持的研究。2015年1月随着
相较于美国已经有一百多年发展历史的可转债市场,中国的可转债市场仅发展了二十几年。在2017年之前,我国每年可转债发行数量每年仅不到十支,2017年至今我国可转债每年的发行数量呈爆发式增长,而我国学者对于可转债市场的研究却不是很深入。在我国可转债市场强劲发展的背景下,对于我国可转债的研究显得十分有必要。可转债赎回是可转债发行中一个很重要的附加条件,绝大多数发行方在触发赎回条款时会选择发布强制赎回公告
经济新常态背景下,我国经济已经从高速增长阶段进入高质量增长阶段,产业结构调整作为我国经济体制改革的一项重要举措,将对我国城市经济和生态建设产生深远的影响。城市生态学发现,绿地空间对于生活在城市中的人们具有重要意义。对于个体来说,绿地可以有效增加户外活动时间,缓解压力,促进人们的生理和心理健康;对于社会来说,绿地空间有助于增强社区整合,提升社会资本,创建更和谐融洽的社会环境。作为城市生态系统的核心组
金融市场是否可以影响实体经济?其又如何影响实体经济?2010年3月31日我国融资融券试点正式启动,结束了中国资本市场“单边市”的历史。2019年的第六次超大扩容,意味着融资融券迎来快速发展阶段,二级金融市场交易方式的创新不仅为资本市场注入新的活力,并且对实体经济产生深远影响。在我国新兴市场背景下,对融资融券实体经济后果展开研究,将有助于丰富其治理效用的经验证据,是值得深入研究的课题。在企业的经营中
2008年的全球金融危机以及十二五、十三五时期我国宏观经济增速持续下行叠加外部经贸摩擦的加剧为研究我国系统性金融风险提出了现实的需要,商业银行作为当前我国金融体系运转中的主导力量,其系统性风险度量及其影响因素自然就成为我国金融宏观审慎管理领域的研究热点。本文首先利用Brownlees和Engle(2017)提出的系统性风险指数SRISK方法,对16家大型上市银行2011-2020年的资本短缺度SR
经济学和排队论学者针对顾客、商家和社会规划者三方博弈均衡的经济现象,在排队论和博弈论背景下研究随机服务系统,逐渐形成了一门经济学、博弈学与经典排队论相融合的交叉学科,即排队经济学或策略排队。目前关于排队经济学的研究大致形成了两个分支:假设顾客以及服务商家完全理性和假设顾客以及服务商家有限理性。本文假定顾客是有限理性的,同时具有风险规避和损失厌恶这两种非理性因素,构建了一个新的顾客非完全理性的M/M
21世纪以来,我国航空航天事业高速发展,使得航天事业所依赖的发动机等高精密设备对安全性、可靠性的要求也越来越高。为了对高精密设备的使用周期、健康状况进行监控和维护,设备剩余使用寿命预测的问题也得到越来越多的关注。剩余使用寿命预测当前主流的方法包括基于模型的方法、数据驱动的方法以及混合方法。近年来学者的不断研究使得深度学习技术快速发展,基于深度学习的数据驱动方法也因此在剩余使用寿命预测领域中得到广泛
在移动互联网高速发展的大背景下,直播作为一种新型媒介,能增强屏幕两端的实时互动,进一步打破时间和空间上的距离,为主播和观众模拟一种实时交流的场景。随着技术手段的不断提高,越来越多的平台、机构和个人有能力参与到直播中来。在中国,电商直播最早起步于2016年,是由短视频平台快手及电商平台淘宝、蘑菇街、京东等陆续起步尝试,最初以内容建设和流量变现为目的,经过四年的成长,越来越多的平台参与其中,直播商品的
预算偏离是政府决算收支与预算收支之间的差异。由于各种原因,在预算和决算之间出现的差异常常被视为正常现象,但是过高的预算偏离度将产生不利的影响。“分税制”改革之后,地方政府留存的税收变少,但同时要承担较多的事权,这导致我国预算偏离状况一直居高不下。在财政制度不够完善,法制建设还处于相对滞后的情况下,各级政府为了地区发展对财政收支施加控制,使预决算之间的差距不断扩大。当前中国经济进入新常态,从追求增速