基于不平衡数据的FL-lightgbm算法研究及其应用

来源 :上海师范大学 | 被引量 : 4次 | 上传用户:jia343212539
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人们消费观念的改变,“超前消费”的概念被越来越多的人所认可,消费金融迎来了蓬勃发展。它能使用户提前负担起暂时无法负担的商品,加速商品流转,在一定程度上促进了经济的发展。消费金融贷款有着小额、无抵押、无担保的特点,这些特点使消费金融贷款在惠及更多中低收入人群的同时,也为消费金融公司带来了贷款违约的风险。本文尝试用机器学习的方法预测用户违约的风险,降低消费金融公司的坏账率。传统的机器学习方法通常假设数据是均匀分布的,但消费金融贷款数据的分布是不平衡的,即未违约用户的数量远大于违约用户的数量,在这种情况下,采用传统的算法会导致模型过多地关注未违约用户的样本,导致对少数违约用户的错分,这种错分会给消费金融公司造成极大代价。因此研究消费金融贷款中的不平衡的违约数据分类问题有重要意义。本文基于消费金融公司捷信的贷款违约数据,对用户是否违约进行预测。首先对数据做了预处理和探索性分析,并根据数据特点构建新特征,选取xgboost模型中重要性排名前150的特征构建模型;其次本文选取xgboost和前沿的lightgbm模型分别建模,采用AUC作为评估指标,发现lightgbm模型整体上优于xgboost模型;最后,本文改进了lightgbm的损失函数,采用focal loss作为模型的损失函数,结果发现改进损失函数的lightgbm模型对少数类违约样本的预测效果更好,AUC值达到0.757144,仅耗时43s。
其他文献
我们在历年的儿童健康检查中,发现幼儿龋齿的发病率比较高,严重影响着幼儿的健康成长。我园在南通医学院附属医院口腔科杜耀谦医师及南通市妇幼保健所儿保组的帮助下,
目的探讨重庆地区血液核酸集中化检测的意义。方法对2016年1月—2017年6月,本市血液中心及重庆区县14家血站/库的血液标本,采用核酸检测试剂与酶联免疫法(ELISA)试剂平行检测
海洋是地球环境的调节器,是人类生命支持系统的重要组成部分。海洋中不但有现实开发资源,还有潜在战略资源,是支持人类持续发展的宝贵财富。随着研究、开发利用海洋的理论和技术
通过新疆地区棉花膜下滴灌田间试验,获得土壤水分动态、作物生长指标、产量等数据以率定和验证二维土壤水与作物生长耦合模拟模型.结果表明,基于二维土壤水与作物生长耦合模拟模型,土壤含水率模拟值与实测值的RMSE为0.018~0.059cm3/cm3,一致性指数为0.504~0.990;叶面积指数、株高和地上部分干物质量预测值与实测值的RMSE分别为0.26~0.51、1.08~1.82cm和1032~1
油菜产量的形成物质基础主要来自光合作用,油菜的绿色光合面积决定油菜产量。油菜光合面积包括叶面积和角果皮面积,前者光合作用产物主要用于油菜植株生长,后者光合作用产物对油菜产量的贡献率在70%左右,因此研究与油菜光合作用有关的油菜叶片和角果皮具有重要意义。本文以油菜长柄叶、短柄叶、无柄叶为研究对象,利用成像高光谱技术与原理,以及SPAD-502叶绿素仪测定油菜三种叶片的光谱特征和叶绿素含量,获取油菜三
一天中午,动物幼儿园的小动物们刚刚睡下,突然一只大灰狼闯进了幼儿园。山羊老师急得胡子直抖,不知怎么办才好。“老师,赶快到村里去叫猎人,要不大家都没命了。”不知哪个机
本文采用成本低以及可再生的花生壳作为前驱体,通过化学活化法制备具有高电化学性能的生物质活性炭电极材料,然后通过CO2活化、水热碳化、化学预处理以及杂元素掺杂等措施对
车牌的自动检测和识别技术在智能交通中起着重要的作用,利用车牌自动识别技术,可以使城市小区、停车场等各种情景下的车辆实现智能化管理。近年来由于车牌自动检测和识别技术
改革开放20余年来,江苏省南通市海水养殖业发展迅速,尤其是自20世纪90年代以来,海水养殖发展更为迅猛,海水养殖面积从1990年的3.67万hm2发展到2002年的6.67万hm2,产量也由199
为了分析绵羊痘病毒A11R蛋白质的分子特征,提取了山羊痘病毒古浪分离株(GL)的基因组DNA,设计引物进行PCR扩增,将PCR产物连接到p GEM-T Easy载体后转化至大肠杆菌DH5α感受态细