基于样本信息的Logistic回归信用风险评价模型研究

来源 :华北理工大学 | 被引量 : 1次 | 上传用户:jx34343
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会生活信息复杂度的增加,数据采集、存储、分析和运用的需求越来越大,数据冗余、类别分布不均衡的情况也越发常见,人们不断致力于优化各种模型,改善分析环境等,意图从复杂数据中提取出有实际价值信息。例如在银行对客户进行风险预测的案例中,违约和正常两种客户类别在总体中所占比例差距很大,此时,有效的数据处理才能使模型产生更好的训练结果。在这种数据维度高且样本类别不均衡的情况下,虽然违约客户人数较正常客户人数来说占总体比例很小,但若将违约样例错误判定为正常样例,那么带来的损失是不能预想的。同样,当正常样例被判定为违约样例,则会使银行损失信用良好的客户。基于此,文章通过研究样本的分布情况提出一种基于不均衡样本数据信息量的综合得分欠抽样方法。首先将原始数据中的大类样本分别进行主成分、核主成分和信息熵三种方法计算信息量,根据得出的信息量大小从大类样本中选取与小类样本数量相当的样本,再分别利用选取后的均衡样本建立逻辑回归分类器,根据分类结果找出能力最优的方法。文章利用Kaggle网上的26234个竞赛数据进行了实证分析,计算得出经主成分、核主成分和信息熵欠抽样使样本均衡后,分类器召回率由未处理数据的47.1%分别提高到93.3%、92.1%和94.7%,在文章选取的样例数据中,信息熵提取出的信息量最大的样本效果最好,同时也说明此类方法对不均衡数据的有效性。结果表明,基于样本信息量的欠抽样方法不仅能使分类算法的收敛速度得到一定程度提升,而且经过欠抽样处理后的数据模型拟合度及召回率比之未经处理的数据有较大提高。由于文章实证分析数据集有限,且核主成分的代码调用了工具包,导致默认的参数适用性和核函数的选择受到了局限,但研究结论对后续相关研究仍有一定的指导意义。图16幅;表16个;参49篇。
其他文献
从O2O平台模式、扁平化管理模式、扩张模式和盈利模式4个方面,对我国智能健身房的商业模式进行分析研究。研究认为,O2O平台模式是智能健身房商业模式实现的关键所在,扁平化管
拟单性木兰属是我国木兰科特有属,该属共5个种,其中峨眉拟单性木兰为四川峨眉山特有种,国家一级濒危重点保护植物。本文概述了拟单性木兰属植物的繁育技术研究进展,同时重点介绍
【正】 不久前召开的中国博士后科学基金会第三届理事会通过了新的“中国博士后科学基金资助条例”。新条例在资助强度、评审方法等方面都作了改进,引入了竞争机制、提高了资
木棉(Gossampinus malabarica)又名攀枝花、红棉、英雄树、烽火树,属木棉科木棉属落叶高大乔木。木棉广泛分布在我国四川、云南、贵州、广西、广东,生长在江河沿岸、山地阳坡及
以某型飞机模型机身前段零件为例,将分度头这一普通的机床附件用于三轴加工中心,这样拓展了工作范围,加工出复杂的连续曲面。
随着信息技术的发展及知识经济的到来,面临信息系统环境下的企业深深感到进行有效知识管理的重要性.在论文中,首先对信息系统、企业的知识管理的定义、理论进行了阐述.然后详
基于国有经济主体产权结构的现状,政府行为的过度介入造成了国有企业债务负担的相当部分,因而债转股博弈必须考虑政府、企业和银行等利益集团在追求自身效用最大化和争夺金融