基于混合特征提取和集成学习的个人贷款违约预测研究

来源 :电子科技大学 | 被引量 : 1次 | 上传用户:Chunbo_Huang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网金融的不断发展,许多小贷公司因风险控制能力不足,接连暴雷。借款人违约风险评估模型作为一种有效的风控手段,可以利用借款人的个人信息和社会活动数据发现用户潜在的违约风险,在小贷企业中发挥着显著作用。本文针对借款用户数据类别不平衡、特征维度高的特点以及企业接入数据成本高的问题,对信贷数据进行特征选择和均衡化处理,并在此基础上建立了基于集成学习的借款人违约风险概率预测模型。具体研究内容和贡献如下:(1)本文提出了一种分层的特征选择框架。首先使用Relief_S算法,通过在特征筛选阶段给与少数类样本更多关注,选择出对少数类样本区分能力强的特征,提高模型在不平衡样本集的预测效果,结合Pearson相关系数法对复杂且高维的信贷特征进行快速的特征初筛,然后对剩余特征使用精筛算法。相比于直接进行特征精筛,在保证模型效果的前提下,分层特征选择显著提升了筛选效率。(2)针对不同预测模型特点提出了针对性的特征精筛算法。因逻辑回归模型效果受信贷特征影响大,本文提出了IKP_Lasso特征筛选算法,从多个角度评估信贷特征,避免了单一评价指标造成信贷特征多方面信息被忽略的问题。在LightGBM模型中,通过LightGBM-RRFE算法对特征进行筛选,解决了LightGBM重要性评估受冗余影响的问题。在神经网络模型中,通过综合考虑LightGBM-RRFE重要性排名并加入经验判断,选择可解释性强的特征,提高神经网络模型的可靠性。(3)根据实际工作经验对模型流程进行工程化建设,总结出适合小贷场景的缺失值、异常值的处理方式以及针对信贷特征的特征工程方法。针对逻辑回归模型受特征影响大的特点,本文对连续特征进行卡方分箱和WOE转化,增加特征的稳定性和可解释性,并引入非线性信息。最后本文根据上述三种特征精筛算法得到的不同信贷特征子集,基于逻辑回归模型、LightGBM模型以及神经网络模型分别建立违约预测模型,然后将三个模型进行分层融合,得到最终的信贷评估模型。实验表明,相比于其他信贷评估模型,本文构建的基于混合特征提取的差异化违约预测模型取得了最佳的预测效果,并且在多个真实数据集上验证了LightGBM-RRFE筛选算法的普适性和优越性。
其他文献
综合运输通道是在城市群区域由城市之间的路段组成的运输路径,每条运输路径均由多种运输方式组成,运输通道上的运输资源集中,路段运输量明显高于周边路段。综合运输通道的快
本文利用CHFS2013数据与分位数回归方法,研究金融资本对农户增收的影响,以考察和判断精准扶贫的作用效果与可持续性。主要结论是:金融资本的增收效果受到农户内部分层与区域
加密是保护数据库中敏感信息的一种有效手段,如何在保证数据库安全的同时,实现对加密数据的高效查询是目前的一个难题。在此提出一个针对字符型数据的保存顺序加密方案,能直
随着高等教育的进一步普及,当代大学生们已经成为新文化的载体与新生活方式的实践者,并扮演着越来越重要的角色。因此如果不了解大学生,不能正确地认识和对待大学生,便会失去
分级诊疗早在新医改之初就已提出。当前,医改已进入了攻坚期,如何解决大医院人满为患、基层医疗机构资金、设备、人员闲置等问题,为什么分级诊疗困难重重、难以落实,这是医改
最高人民法院20号指导案例打开了研究若干专利细节问题的大门:(1)当购销行为跨临时保护期时,是适用《专利法》第13条,还是适用第60条,取决于"销售"的完成时间。(2)后续实施行
针对企业在培训需求分析方面存在的不足,建立以绩效差距为切入点的培训需求分析方法,在组织、工作、员工三个层面探寻岗位绩效差距的原因,通过建立岗位技能矩阵,寻求岗位培训
<正>党的十八届四中全会对发展涉外法律服务业作出了重要部署,提出了明确要求。司法部等四部委联合印发了《关于发展涉外法律服务业的意见》,指明了发展涉外法律服务业的方向
在"互联网+"时代,跨境电子商务迅速发展,并不断改变着传统贸易模式,这已经成为全球贸易发展的一大趋势,也成为学界研究的热点问题之一。本文围绕跨境电子商务,从以下三个方面
为探究妊娠后期-哺乳期母猪日粮中添加酵母核苷酸对新生仔猪肠道屏障和胎盘营养物质转运的影响及其机制,试验选取预产期相近的60头妊娠后期80±3d的长x大二元母猪随机分成两