基于分类器排序与集成学习相结合的信用评分集成框架研究与应用

来源 :浙江工商大学 | 被引量 : 0次 | 上传用户:liongliong552
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的迭代更新,新兴的金融行业势头正盛,市场的需求也产生了更多的变化,个人信贷业务随之快速的发展起来,各种贷款平台、贷款种类层出不穷,从小到消费、住房、教育,大到企业贷款、融资等都离不开贷款。然而在全球化背景的影响下,金融市场环境波动性日益加剧的刺激之下,违约现象频发,信用风险产生的影响日益严峻,使得银行与金融机构要更加谨慎的对待借款人的个人信用状况。分类的精度在金融业起着至关重要的作用,在信贷客户选择、风险衡量等方面即使信用评分的精度提高1%也会大大减小金融机构的损失。然而,对于特定的数据集,特定的分类器可能最适合,但是很难寻找出最适合的特定分类器,因此许多研究表明分类器集成也许是一种更加有效的方法。本文对Diwakar Tripathi*et al[10]中所提出的集成框架进行改进,使用分类器排序与Ada Boost算法相结合构建以分层多数投票或加权投票为基础的RLAda Boost集成框架并且利用UCI公开数据库中的澳大利亚信贷数据集以及德国信贷数据集进行模型的性能验证。RLAda Boost集成框架首先利用四种特征选择方法筛选特征,再从7个常用的基分类器筛选出5个基分类器并再计算秩后,利用Ada Boost提升5个基分类器的性能,得到其更新的F1值与秩,并从正确率、敏感度、特异度与G-measure等方面比较了集成框架多数投票(MV)、加权投票(WV)、分层多数投票(LMV)以及分层加权投票(LWV)的效果。RLAda Boost在澳大利亚平衡数据集中表现优异,其中四种特征选择方法下的Ada Boost+LMV与Ada Boost+LWV相较于MV与WV都得到了相应的提升,STEP+Ada Boost+LMV的整体精度最高,并且四种特征选择方法下的Ada Boost+LMV与Ada Boost+LWV都比MV与WV的ROC曲线效果都更好。在德国非平衡数据集中,表现较为良好,在正确率与特异度都取得了更好的表现,并且其中CORR+Ada Boost+LMV的整体精度最好。并且发现在相同的特征选择数据下Ada Boost+LMV与Ada Boost+LWV比Bagging+LMV与Bagging+LWV表现更好。实验结果表明,本文提出的RLAda Boost集成框架在澳大利亚信用评分数据上取得了明显的效果,在德国贷款审批数据集上取得了一定的进步,且RLAda Boost比RLBagging集成框架性能更优越。
其他文献
视网膜血管的异常变化与糖尿病、高血压等很多的疾病都有着较强的关系,医生可以通过分割得到血管的有关信息进行早期预防和辅助诊断,而人工分割效率较低,难以满足实际需求,因此计算机辅助诊断成为了一种关键的技术。近年来,深度学习在各个领域中的表现都很突出,利用卷积神经网络完成语义分割任务也逐渐形成了研究热潮,并且不断涌现了很多新的方法。其中,UNet作为语义分割的经典方法之一,在医学图像分割中有着良好的性能
学位
直播带货作为一种新兴商业模式和互联网业态,近年来发展势头迅猛,在提振经济方面发挥了积极作用,但同时也出现了各种乱象并扰乱了市场秩序。事实上,自从2020年7月1日正式颁布国内首个关于直播带货文件《网络直播营销行为规范》开始至2021年上半年,相关政策发布之密集历年罕见。当前,在直播带货模式处于爆炸式发展的阶段,这些政策的出台必然会引起广大民众的关注,并对其进行激烈的讨论。本文基于相关研究成果,深入
学位
乳腺癌2021年全球新发病例数高达226万例,居女性恶性肿瘤疾病发病率第一位。乳腺病灶是乳腺中局部发生病变的部位,需要医生对其进行进一步诊断分析。利用计算机技术能够辅助医生进行病灶识别,节省医生的时间和精力。在众多乳腺癌检测方法中,超声检测凭借其无辐射、价格低廉等优点得到广泛使用,然而超声成像结果图像质量差,并且不可避免地存在噪声和伪影。传统方法利用单图分割技术对乳腺病灶进行分割,分割效果较差。随
学位
环境保护与科技高质量发展是我国生态文明建设的重要一环。党的十九大召开以来,加强环境高水平保护和推动科技高质量发展已经成为我国社会主义现代化建设新的战略任务,在人类可持续发展的过程中,实现环境与科技发展和谐共生是人类发展不可或缺的重要一步。而科技是一把双刃剑,纵观人类近代发展史,不难发现科技的发展给人类的生活带来了便利,也同时给环境造成难以愈合的伤害如水源污染、土地退化、资源短缺、生物多样性减少等,
学位
2020年初爆发的新冠肺炎具有传染性强、潜伏期长、发现性难以及反复性强等特点,已迅速蔓延至全国各地并呈现出严峻态势。感染此种病毒的患者不仅要遭受身体上的痛苦,还会对其心理健康造成影响。调查显示超过七成的患者因担心疾病预后,害怕暂无特效药无法痊愈等原因而表现出抑郁。新冠所引发的一系列心理问题,会使得患者的自我认知、生活态度以及生命意义感发生变化。因此,注重疫情期间新冠患者的心理健康成为了疫情护理工作
学位
产品可靠性是衡量产品质量的重要指标之一,可靠性研究在各个领域都有着至关重要的作用。本文基于Weibull分布对多部件应力-强度模型的可靠性进行统计推断,具体内容如下:(1)考虑了涉及一个应力和多个来自串联系统且相互独立的强度部件的多部件应力-强度模型的可靠性。当应力和强度变量服从形状参数相同的Weibull分布时,证明了极大似然估计的存在性和唯一性,并推导出可靠性R的近似极大似然估计,且根据Fis
学位
数字经济作为近年来新兴的经济形式,影响着国民经济社会的各个方面,为经济发展开辟了新的路径,有效地提高了各地区资源要素流动的效率。在此背景下,本文以全国各个地区的数据为依据,测度了数字经济发展和经济高质量发展水平,并以此研究两者之间的关系。本文首先回顾了数字经济和经济高质量发展相关文献,并在此基础上界定了数字经济和高质量发展的核心概念。其次,从生产函数的视角分析了数字经济如何促进经济增长,并系统分析
学位
在区域经济一体化背景下,产业区域合作逐渐成为大势所趋,高技术产业也随之呈集群化发展。鉴于高技术产业是以技术知识为依托生产高技术产品的产业群,其发展与科技创新有着密不可分的关系。但是与发达国家相比,目前中国在科技前沿领域仍缺乏重大科技突破,技术供非所需问题严重,创新成果质量不高的现象日益突出。长三角地区作为中国经济发展最为发达的重要地带之一,是承载高技术产业集群发展的“主阵地”,也是引领科技创新高质
学位
污染物浓度受人为污染源物排放和气象条件的双重影响。虽然人为排放是造成污染的主要原因,但气象因素(如大气扩散条件)也会影响大气中污染物的浓度。因此,在分析和评估大气污染治理政策等人为因素对空气质量的影响时,需剔除或控制气象因素的影响,进而对大气污染治理政策等人为因素对空气质量所产生影响作出科学、合理的评价。在分析人为因素对大气质量所产生的影响时,传统的统计方法通常采用多元回归分析,将气象因素作为控制
学位
红外成像具有隐蔽性强,侦察能力强,抗干扰能力强的特点,在许多领域中都有广泛应用,特别是在军事和民用领域。由于红外小目标面积小,纹理细节缺失,同时存在大量背景噪声,红外小目标检测问题非常具有挑战性。面对场景复杂多变的红外图像,传统基于模型驱动的算法已经不太适用,因此越来越多的人开始利用深度学习的方法解决红外小目标检测问题。本文针对红外小目标的特点和检测的难点,分别设计了基于深度学习方法的目标检测网络
学位