基于样本信息的Logistic回归信用风险评价模型研究

来源 :华北理工大学 | 被引量 : 1次 | 上传用户：jx34343

【摘要】

：

随着社会生活信息复杂度的增加,数据采集、存储、分析和运用的需求越来越大,数据冗余、类别分布不均衡的情况也越发常见,人们不断致力于优化各种模型,改善分析环境等,意图从

【作者】

：

徐述

【出处】

：

华北理工大学

【发表日期】

：

2020年01期

【关键词】

：

数据挖掘不均衡样本数据处理 Logistic回归

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着社会生活信息复杂度的增加,数据采集、存储、分析和运用的需求越来越大,数据冗余、类别分布不均衡的情况也越发常见,人们不断致力于优化各种模型,改善分析环境等,意图从复杂数据中提取出有实际价值信息。例如在银行对客户进行风险预测的案例中,违约和正常两种客户类别在总体中所占比例差距很大,此时,有效的数据处理才能使模型产生更好的训练结果。在这种数据维度高且样本类别不均衡的情况下,虽然违约客户人数较正常客户人数来说占总体比例很小,但若将违约样例错误判定为正常样例,那么带来的损失是不能预想的。同样,当正常样例被判定为违约样例,则会使银行损失信用良好的客户。基于此,文章通过研究样本的分布情况提出一种基于不均衡样本数据信息量的综合得分欠抽样方法。首先将原始数据中的大类样本分别进行主成分、核主成分和信息熵三种方法计算信息量,根据得出的信息量大小从大类样本中选取与小类样本数量相当的样本,再分别利用选取后的均衡样本建立逻辑回归分类器,根据分类结果找出能力最优的方法。文章利用Kaggle网上的26234个竞赛数据进行了实证分析,计算得出经主成分、核主成分和信息熵欠抽样使样本均衡后,分类器召回率由未处理数据的47.1%分别提高到93.3%、92.1%和94.7%,在文章选取的样例数据中,信息熵提取出的信息量最大的样本效果最好,同时也说明此类方法对不均衡数据的有效性。结果表明,基于样本信息量的欠抽样方法不仅能使分类算法的收敛速度得到一定程度提升,而且经过欠抽样处理后的数据模型拟合度及召回率比之未经处理的数据有较大提高。由于文章实证分析数据集有限,且核主成分的代码调用了工具包,导致默认的参数适用性和核函数的选择受到了局限,但研究结论对后续相关研究仍有一定的指导意义。图16幅;表16个;参49篇。

其他文献

我国智能健身房商业模式分析研究与启示意义

从O2O平台模式、扁平化管理模式、扩张模式和盈利模式4个方面,对我国智能健身房的商业模式进行分析研究。研究认为,O2O平台模式是智能健身房商业模式实现的关键所在,扁平化管

期刊

智能健身房商业模式智能化

04072 副作用小的银杏叶提取物

期刊

副作用银杏叶提取物白果内酯

拟单性木兰属种质资源及其繁育技术研究进展

拟单性木兰属是我国木兰科特有属，该属共5个种，其中峨眉拟单性木兰为四川峨眉山特有种，国家一级濒危重点保护植物。本文概述了拟单性木兰属植物的繁育技术研究进展，同时重点介绍

期刊

拟单性木兰属种质资源繁育技术峨眉拟单性木兰Parakmeria Germplasm resources PropagationParakmeria