基于集成模型的信贷违约预测

来源 :东华大学 | 被引量 : 0次 | 上传用户:weibiechao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信用贷款逐渐在人们的生活中普及,越来越多的人使用小贷,分期,信用卡等信贷服务来提升生活的质量。根据统计,消费类贷款余额从2016年末的24.6万亿增长到2021年底的53.3万亿。与此同时,不良贷款余额也在迅速增加。为降低金融机构的信用风险,保证行业的可持续发展,利用机器学习和人工智能技术降低逾期风险具有重要意义。本文以上海某金融科技公司在拉丁美洲的信用贷款交易数据为研究对象,利用Python工具对该数据集进行数据处理和分析。对数据中的重复值,异常值和缺失值进行处理。然后根据不同特征的特点进行编码处理,对无顺序取值较少的离散变量进行独热编码,对顺序变量进行顺序编码,对无顺序但取值较多的变量进行目标编码。本文根据特征的IV值进行特征重要性排序和筛选,保留IV值大于0.02且相关系数小于0.8的特征。本文依次选择逻辑回归,随机森林,XGBoost,LightGBM,CatBoost,Voting,Stacking等算法评估其在上述数据上的预测效果。在模型训练过程中,利用5折交叉验证和贝叶斯优化的方法进行超参数调整。评估的指标为分类问题常见的Accuracy,Precision,Recall,F1 score,AUC,KS等指标。通过对比分析不同模型在上述数据集上的表现,结果显示以随机森林、XGBoost、LightGBM、CatBoost四个模型作为基学习器,以逻辑回归模型作为元学习器建立的Stacking算法模型在测试集上的AUC和KS要明显高于单个集成模型,具有明显的优势。为了验证本文所构造的Stacking模型的效果,本文又在阿里公开的违约数据集上对各个模型的表现进行测试,结果显示仍然是Stacking模型表现最好。对Stacking模型输出的概率,本文将其转化为信用评分,以便贷款公司可以利用信用分数作为贷款审核的参考。本文的贡献在于使用了真实的拉美信用贷款数据进行处理并构建了一个两层的Stacking集成学习模型。在调整超参数的过程中,使用了贝叶斯优化的超参数调整方法。
其他文献
近年来,连栋玻璃温室的应用日益广泛,但因其成本高、技术尚不成熟等原因,我国连栋玻璃温室在使用中仍面临许多问题。在冬季,由于温室没有明显的保温能力,室内外温差小,导致加温能耗大。而夏季,受太阳辐射的影响,温室内部堆积的热量过多,不利于作物生长。因此,通过内遮阳保温幕和气泡膜多层覆盖的方式来降低温室冬季夜间加温能耗以及通过不同遮阳工况对夏季温室环境的调控来满足不同作物对温度的需求是两个亟待解决的问题。
学位
随着我国互联网信贷市场的快速发展,网上信贷交易规模和金额大幅攀升,信贷方式以及信贷业务面向群体也变得更加复杂多元化。金融企业的核心是风险控制,有效的风险防范是保持稳定收益的关键因素,所以事前识别出潜在的违约客户对降低信用风险具有重要意义。从惩罚算法来看,模型对违约客户的误分类成本要高于履约客户,风险防范应当重点关注样本中违约客户的分类精度。而在正常的信贷业务中,客户违约事件的发生比例很小,信贷数据
学位
药物设计与发现是药物研发的重要阶段,目的是发现与特定靶点结合后具有活性的苗头化合物。传统的方法是通过高通量实验筛选,但耗时长、支出高,且成功率低。随着计算机技术的飞速发展,虚拟筛选技术逐渐成熟,这是通过计算机从大型化合物数据库中筛选活性化合物的一种方法,可大大缩短筛选苗头化合物的时间,也提高了筛选的有效性和准确度。本文使用DUD-E、MUV和Kernie三个数据集进行实验,建立了一个基于结构的药物
学位
科技和网络的发展为社交媒体应用的衍生提供了一定基础,进而网络媒体在人们的日常交际和获取信息等活动中担任着不可估量的角色。其中新浪微博作为社交网络媒介,热搜功能也逐渐成为人们获取每日新闻和时事热点的重要途径之一。而随着微博热搜功能日渐普及,大量的数据信息也随之涌现出来,其中生成的短文本数据隐藏着许多有用的信息。这类从社交媒体中产生的短文本数据具有数量大、文本长度短、稀疏度高、信息缺乏共享的上下文、非
学位
<正> “赛璐珞片浸泡包粘工艺”(发明专利公开号:CN1134345A)涉及一种在木质或铝质手风琴体外包粘赛璐珞片的工艺方法。手风琴琴体是由优质木材或铝材制成。为使其美观坚固并保持手风琴外表传统的装饰风格,所以通常都在琴体外包粘一层黑色、红色或其它颜色的赛璐珞片,这样既增加了琴体的装饰性能又增加了琴体的牢固程度。所以赛璐珞片做为手风琴表面的装饰材料国内外厂家一直沿用至今,目前尚未找到可以替代赛璐珞
期刊
随着经济的快速发展,拖拉机、三轮车等农用车在农村中发挥着越来越多的作用。然而,由于存在农用车违章载人这一现象,导致农用车在发生事故时往往死伤惨重。因此,本文提出了基于深度学习的农用车违章载人识别算法。通过对农用车违章载人和对违章农用车车牌的识别,为交通执法部门减少农用车违章载人的现象出一份力。本文具体的研究内容如下:1、本文提出了基于YOLOX的农用车与农用车车牌识别算法以对农用车和农用车车牌进行
学位
<正>随着流动人口增加及留守儿童缺乏安全意识,家长疏于看管,在院前急救过程中碰到越来越多的高处坠落伤患儿。儿童高处坠落伤占儿童意外伤害的第二位[1],多为严重多发创伤,早期现场急救非常重要。为了探索如何减少儿童高处坠落伤的发生及提高院前救治能力,本文回顾性分析高处坠落伤患儿64例的院前救治情况,现报道如下:1临床资料2016年1月至2020年1月我中心共接收高处坠落伤患儿64例。
期刊
溶液除湿空调可通过LiCl溶液与空气的直接接触有效捕集、抑制送风中的霉菌气溶胶,降低室内人员的霉菌暴露风险。但由于霉菌自身具有极强的疏水性和抗逆性,仅以LiCl溶液灭活空调霉菌气溶胶的方式尚存在不足,主要包括:1)灭霉效率不理想、2)有效灭霉所需溶液浓度过大而易引发系统内溶液结晶。这制约了溶液除湿空调的空气净化效果。因此,为提高溶液除湿空调的灭霉性能,如何克服霉菌的疏水性和抗逆性是亟待解决的难点问
学位
目的 探究奥马珠单抗对支气管哮喘大鼠肺功能及气道重塑的影响,并分析可能的机制。方法将36只哮喘致敏性合格的大鼠随机分为模型组及低、中、高剂量组,每组9只,另取10只正常大鼠为对照组。除对照组外,其余各组大鼠均用卵白蛋白(OVA)致敏并雾化吸入法诱导大鼠支气管哮喘模型。其中低、中、高剂量组大鼠于模型复制成功后,分别腹腔注射83.16、166.32、332.64 mg/(kg·d)奥马珠单抗溶液,连续
期刊
背景 在中国,新生血管性年龄相关黄斑变性患者中约有40%患有多灶性脉络膜血管病变(polypoidal choroidal vasculopathy,PCV)。PCV会导致反复视网膜色素上皮脱离(pigment epithelium detachment, PED)、广泛的视网膜下或玻璃体内出血,以及严重的视力损失。近年来,已有多种该病的治疗方法在中国使用,临床医生需要获得治疗PCV的全面经验。方
期刊