【摘 要】
:
随着经济的迅速发展,人民生活水平不断提高,信用卡的发行量也与日俱增,客户违约支付的风险随之增大。传统的风险评估方法已不能满足现状,基于此本文针对如何实现信用卡违约客户的高查准率和高查全率识别展开了探讨。本文首先调研了信用卡行业发展现状和信用卡风险识别研究现状,分析了机器学习在信用卡风险识别中的应用和优势,然后利用传统机器学习单模型和混合模型分别建立了客户违约支付预测模型。在模型的建立中通过删除重复
论文部分内容阅读
随着经济的迅速发展,人民生活水平不断提高,信用卡的发行量也与日俱增,客户违约支付的风险随之增大。传统的风险评估方法已不能满足现状,基于此本文针对如何实现信用卡违约客户的高查准率和高查全率识别展开了探讨。本文首先调研了信用卡行业发展现状和信用卡风险识别研究现状,分析了机器学习在信用卡风险识别中的应用和优势,然后利用传统机器学习单模型和混合模型分别建立了客户违约支付预测模型。在模型的建立中通过删除重复样本、离群点处理、特征标准化、不均衡样本SMOTE过采样进行了数据预处理。提取了时间、聚合和交叉特征等共计50维。通过LightGBM重要性打分与PIMP算法结合的方式进行特征选择,最终保留特征42维。所建立的模型主要分为:(1)基于客户违约支付数据的样本不均衡性,将违约样本作为异常点,通过孤立森林和局部异常因子进行检测;(2)利用具有不同分类思想的5个经典机器学习模型:K最近邻(KNN)、支持向量机(SVM)、逻辑回归(LR)、随机森林(RF)、轻量级梯度提升机(LGB)分别进行预测评估;(3)基于以上两种单模型的表现,利用Voting,Stacking,Voting和孤立森林两阶段融合,Stacking和孤立森林两阶段融合这四种混合模型进行预测评估。以Recall和AUC作为主要的评价指标,实验结果表明:(1)异常检测模型中孤立森林的整体表现优于局部异常因子,但在查准率上二者表现欠佳;(2)在5个传统机器学习单模型中LGB的综合性能表现最好,违约客户的查全率达到0.88以上,在5个模型中违约客户查准率和AUC值最高,且耗时较少,但是其查全率仍然有待提升;(3)四种混合模型的各项指标与传统单模型相比均有显著提升,其中AUC均大于0.89,Stacking-iForest 达到 0.98。Voting-iForest 和 Stacking-iForest 的整体表现也明显优于传统的混合模型Voting和Stacking,其中Recall分别提升了 6%和8%,因此,在客户违约支付识别的实际应用中结合孤立森林进行两阶段融合具有很高的参考价值。
其他文献
随着“健康中国2030规划”的进一步实施,国民医疗保障水平得到了不断的提高和拓展;人口老龄化进程的加快将使得对于药物、治疗的需求得到释放和扩大,从投资的角度看,需求稳定
论文以衔接连词“接着”与“然后”为考察对象,从语义分析、句法分析、篇章功能等三个层面进行了研究,总结出了异同点,再根据连词“接着”与“然后”的异同点考察了留学生在篇章中的“接着、然后”的偏误。全文共有四个部分:第一章绪论,说明选题缘由、研究现状、研究方法以及语料库来源较详细地介绍了连词“接着、然后”。第二章“接着”与“然后”在篇章中的使用情况研究,本章主要从语义、句法及篇章功能三个方面进行详细分析
目的:本文旨在观察麻黄升麻汤治疗气郁化热,伤阴耗阳,阴阳失交型失眠的临床疗效,探讨其作用机制,从而为失眠的中医药治疗提供新的思路和临床依据,提高治疗失眠的临床疗效。方法:采用随机对照的研究方法,将符合纳入标准的气郁化热,伤阴耗阳,阴阳失交型失眠患者70例随机分为两组,试验组35例,予麻黄升麻汤治疗;对照组35例,予同仁牛黄清心丸治疗,两组均治疗30天。分别记录治疗前、治疗后匹兹堡睡眠质量指数量表(
电子商务的发展产生了海量的快递包装垃圾,造成资源浪费和环境破坏。亟需开展绿色物流、实行快递包装回收等解决包装回收再利用的社会问题。由于消费者参与快递包装回收的意识和积极性不高,回收意愿不强烈,导致快递包装回收利用率比较低,本文在分析现有的快递包装回收情况基础上,研究快递包装机制,并根据计划行为理论结合问卷调查选取影响因素,在此基础上进一步研究快递包装回收的运营模式,最终根据分析得到最优运营模式对快
测量误差模型起源较早,在生活中应用比较广泛,比如在生物学、经济学和工程学等众多领域中。这主要是因为当人们对变量进行观测时,常常会出现各种偏差,此时忽略偏差再用常规的估计方法做估计,会造成模型中参数估计的有偏性和不一致性。又由于线性回归模型的局限性,在很多实际问题中,非线性回归模型更加适用,因此本文在非线性回归模型中加入测量误差,研究其估计方法。首先,本文介绍了带测量误差的经典线性回归模型的一些常用
随着信息处理技术、数据采集技术的不断发展和大数据时代的到来,人们可获得信息的途径越来越多,信息量也越来越大。鲁棒主成分分析模型作为高维数据降维的有效方法之一,在图像处理领域中应用广泛。本文将主要研究鲁棒主成分分析模型的改进及其在视频前景背景分离问题中的应用。论文的主要工作如下:首先,对鲁棒主成分分析模型的基本原理及国内外研究现状进行了介绍,同时对本文中用到的模型求解算法进行介绍,并给出了算法的基本
2015年5月15日,阿里巴巴集团在美国因涉嫌商标侵权而遭到法国开云集团起诉引起各界对于电子商务平台提供者商标侵权责任认定问题的高度关注。电子商务在我国发展迅速,其在给
山崎丰子是日本社会派的代表作家。她在取材翔实的基础上,创作了众多战争题材的作品,塑造了许多经典的男性形象。自20世纪70年代起,在日本社会战争体验急速淡化的背景下,创作了“战争三部曲”——《不毛地带》(1978年)、《两个祖国》(1983年)和《大地之子》(1991年)。本论文以“战争三部曲”为研究对象,运用文本分析的方法,通过对男性形象的分析,考察“战争三部曲”中的战争观。本研究选取三个角度进行
等规聚丙烯(i PP)具有优异的物理性能、优异的耐化学性、较轻的重量和可回收利用的特点,尤其具有良好的经济效益,是一种重要的高分子材料。然而,功能基团的缺乏导致聚丙烯表面性能差,附着力差和与其它聚合物的相容性差的问题,严重限制了聚丙烯材料的一些高附加值应用。因此,在聚烯烃骨架中引入极性官能团,以满足高附加值的特殊应用所需的材料性能,是目前一个十分热门的研究方向。具体研究内容如下:1、使用过渡金属催
聚落的道路景观与传统农业生产、生活密切关联,有着独特的农耕文化基础。南靖土楼聚落是南迁客家人不断适应闽西南山区自然条件,同时融合当地土著的生存智慧所成就的农业聚居点,形成了独特的聚落道路景观。随着南靖土楼被列入世界文化遗产名录,遗产保护捆绑的旅游开发彻底改变了世遗土楼群所在的河坑村的聚落。虽说目前的聚落道路基本保留了原有线形,但道路景观中蕴涵的文化内涵被彻底改变,相关历史要素正逐步消失,同时引发了