基于EM算法的不均衡风险违约预测模型

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:yc332612
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,以个人信贷为主导的消费金融行业发展迅猛,但随之而来不断攀升的逾期率也逐渐成为其不可忽视的痛点问题。本文通过对某消费金融平台的用户信息及交易记录进行分析,从违约用户与未违约用户总体的内在分布出发,构建了一个有效的风险违约预测模型,并与其他模型进行比较,说明了提出模型的有效性。首先在数据描述分析的基础上,发现数据中存在不均衡分布的特性。然后采用方差分析的方法,发现违约用户与未违约用户总体的均值在性别、年龄、是否是实名用户、所持银行卡数目、信用评分、使用额度、注册信息缺失率、用户信息缺失率和注册订单时间差九个指标下存在显著差异。进一步,在掌握了可能会影响用户违约因素的情况下,考虑从量化的角度估计出用户潜在的风险违约可能性。由于数据中违约用户与未违约用户的比例差异较大,因此本文首先对初始构造的24个变量进行特征选择,利用Boruta算法筛选出9个具有显著区分度的特征进入模型。然后从违约用户的概率分布出发,根据特征的分布特性对混合高斯模型加以改进,构建了基于EM算法的混合模型,来估算出用户出现违约行为的潜在概率。同时比较违约用户总体和未违约用户总体的模型参数,给出了违约用户画像。进一步根据特征的实际意义和先验信息来改变其分布假设并得到了相同的模型结论,有效地验证了提出模型的鲁棒性。最后比较了提出模型同不均衡分类中常用的LR、XGBoost和XGBoost+LR三种方法的预测效果。结果表明,尽管提出模型在整体的预测精度上不及XGBoost和XGBoost+LR,但在违约用户预测准确度上显著的高于其他模型。该模型有助于消费金融平台较为准确地掌握用户可能违约的程度,为平台的风险管控措施提供参考依据。
其他文献
随着我国城市发展体系逐渐走向成熟,城市化水平不断提高,超大城市、特大城市居民出现了不同程度的健康需求,而现有城市空间多是注重其功能性,追求容积率,对健康需求的满足形式较为单一。本文以城市空间中的城市公园作为研究对象,结合居民健康需求,提出以复愈性环境理论为基础的设计理念。首先对复愈性环境理论进行深入研究,在理论的基础上设计城市公园中复愈性环境构成要素和居民复愈性行为特征的问卷调查,基于SPSS软件
学位
近年来信息化技术、大数据技术、机器学习得到了长足的发展,健康中国的概念也逐渐得到了普及,大量丰富的医疗数据可以提供潜在的有价值的信息,将机器学习中的方法运用到医疗数据集中逐渐地成为研究热点,在一定程度上可以帮助相关医护人员提高疾病诊断的效率、减轻患者的一些治疗痛苦。医疗数据集可能会因为数据收集人员的操作失误或者是测量技术的有限而出现缺失值的情况,因此,本文主要为了解决医疗数据集中存在的缺失值的问题
学位
随着现代社会的不断发展进步,智能技术逐渐融入到我们社会生活的各个方面,智能技术推动城市发展进入智慧建设阶段,城市智慧环境设施应运而生。现阶段城市智慧环境设施的设计存在的文化性匮乏与智能化不足的发展现状难以满足未来智慧城市的发展与广大城市民众的需求。站在设计学科的视阈来看,城市智慧环境设施在追求智能技术的应用中缺少了对文化特色的理解与注入。深圳市处于智慧城市建设的第一梯队,其智慧城市的规划设计与建设
学位
在当今互联网时代,智能手机的使用越来越普及,移动APP广告因为其移动、互动和受众面广等特性受到很多人的青睐,成为互联网广告领域的重要分支。一般地,可以用广告点击率来看某条广告投放效果的好坏,但对于广告主而言,转化率与其收益有着更直接的关系,因此,对广告转化率预估的研究有着很强的实际应用价值。但由于数据高度稀疏等原因导致目前对广告转化率预估的研究效果没有很好。根据以上描述的情况,本文通过对用户、广告
学位
改革开放政策使我国经济高速发展,而人口流动对经济增长的贡献率高达20-30%,流动人口是我国劳动力需求的主力军。对于流动人口问题,当务之急就是要加强流动人口的职业健康和家庭发展,促进流动人口社会融合。在劳动力迁移过程中个人的居留意愿可以体现个人以及每户家庭在流入地的基本生活状态。本文通过关注劳动力迁移过程中劳动力的个人因素:性别、年龄、教育年限、户籍类型、社会满足感等,研究得出劳动力迁移过程中居留
学位
近年来,互联网金融的飞速发展对商业银行的信用卡业务造成了重大冲击。而信用卡业务已成为零售银行业务的主要利润来源。保持客户忠诚度对当前遭受互联网金融入侵的信用卡业务而言具有深远意义。目前学术界对客户忠诚度的实证研究主要是在特定行业背景下研究客户忠诚度的影响变量;对客户忠诚度预测问题的研究主要集中于不同忠诚度模型的探索上。但是所用数据基本是问卷调查数据或者数据的时间跨度较小(比如一个月),对于时间跨度
学位
近年来,地铁成为居民出行的主要交通工具。随着地铁线路的不断完善发展,地铁客流量不断增加,这容易造成地铁站客流拥堵,不利于居民出行及地铁运营管理。因此实现对站点客流量的短期预测能够帮助优化地铁运营管理,保障市民安全出行。本文收集杭州市AFC系统的所有地铁站刷卡数据信息,对数据进行处理后建立短期客流量预测模型。本文首先进行数据处理,将原始数据转化为各站点每十分钟客流量数据,并从站点和时间两个方面对客流
学位
近年来,随着我国金融市场的不断发展和创新以及社会融资需求的不断增加,影子银行作为商业银行的有效补充迅速扩张,成为金融体系的重要组成部分。影子银行的出现虽然一定程度上满足了社会资金需求,但其本身具有的特性也成为重要的金融风险来源之一,因此,防范影子银行引发的系统性风险非常有意义。本文通过构建影子银行风险预警线和风险预警模型来对影子银行的风险状况进行预测,辅助相关部门的防范措施制定。本文再对前人的研究
学位
随着互联网的普及,移动应用和电子支付技术的不断发展,电子商务突破了时间和空间的限制。消费者能随时随地消费的同时,也期待更优质的购物体验和个性化服务。现下常见的电商营销手段如发放优惠券和商品推荐都是基于消费者在线行为数据分析得到的。通过分析用户的历史行为数据,精准预测购物意向,能进一步为消费者提供有针对性的高质量服务,促使其消费进而提高购买转化率。因此如何有效利用消费者行为数据,分析其购物需求是所有
学位
纵向数据和生存数据在医学随访领域广泛存在。当纵向数据和生存数据同时存在时,若忽略两类数据之间的联系而单独建模,往往会导致参数估计出现偏差。联合模型利用两者的潜在联系进行联合建模,可以减少偏差,并能同时研究事物的纵向发展进程和个体生存概率与结局。阿尔茨海默症(AD)的发展过程分为三个阶段:没有症状的早期阶段,轻度认知障碍(MCI)阶段,最后是AD确诊阶段。MCI是AD重要的过渡阶段。使用联合模型来研
学位