基于机器学习方法的信用风险评估综述

来源 :经济研究导刊 | 被引量 : 0次 | 上传用户:zhangbin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘   要:基于信用风险评估的文献随着时间的推移以及技术创新的不断更新,相关机器学习方法运用近年来也与时俱进。基于此,主要从传统的机器学习方法、近现代机器学习方法以及近三年来最新研究三个方面进行信用风险评估领域文献梳理与评述,归纳现有机器学习方法存在的问题和不足,并对未来机器学习方法在金融风控领域研究方向做出展望,提出发展趋势。
  关键词:机器学习方法;信用风险;评估
  中图分类号:F830;TP181       文献标志码:A  文章编号:1673-291X(2021)23-0117-03
  随着人工智能的发展和大数据时代的到来,众多学者利用机器学习方法对信用风险评估展开广泛研究。信用风险管理在国内外金融机构的稳健运行中扮演重要角色,传统的判断用户是否违约的方法已经不能满足当今数据类型多、用户量大、风险预测准确率高的要求,大量学者运用机器学习方法深入展开相关讨论并做出一系列研究成果,证明该方法具有较好的预测和泛化能力。整体来看,我国的个人信用风险评估较国外起步较晚,起初的文献大部分都是进行传统单一模型的风险评估,近年来才开始利用集成机器学习方法进行风险预测。信用风险对于我国金融风控领域尤为重要,因此,对此进行相关文献梳理以及发展趋势研究具有重要意义。
  一、基于统计学习方法的信用风险评估综述
  回归分析等方法最早用于开展信用风险评估领域。在国外,Durand(1941)利用线性判别分析法应用信贷评估系统,提出使用基于数理统计的模型对信用风险评估问题进行了研究,是已知文献中最早被用来进行信用风险评估的方法,自此信用评估由单纯的定性分析转向了定量分析。同时,这一方法存在一定的局限性,它对于数据分布要求的假设性太强,并且样本分类依据不是均值而是方差,因此导致最终的分类效果不是特别强。Orgler(1970)在1970年最早使用线性回归方法针对贷款者的信用状况结合实际情况进行分数评级,预测银行客户信用风险。在国内,姚路(2017)结合个人信用数据对用户进行信用评价,运用多元线性回归方法进行模型构建。线性回归方法从本质上来说是用现有用户信用数据对未知信用状况的用户进行回归预测,最终得出用户是否违约的概率。
  但是线性回归也有一定的弊端,它所得出的值域介于正负无穷大之间,而逻辑回归方法的出现正好解决了这一问题。Wiginton等(1980)最先提出Logistic 回归模型用于进行信用评估。逻辑回归将线性回归后得出的值進行Sigmoid 函数转换成概率值,在0—1之间设定经验阈值从而实现二分类问题。Grablowsky(1981)在Logistic基础上进一步提出Probit 回归模型进行风险评估。该模型主要是将Logistic回归模型中的似然比对数函数调整为正态分布函数的反函数。Steenackers等(1989)对Logistic 回归模型进行优化,将用户信息的各种变量关系通过该模型进行反映,增强了该模型的可解释性。Ziari (1997)进行信用风险评估时将线性分析模型与统计分析模型相结合,对比单一的线性分析和统计分析模型发现效果更好。在国内,胡滨(2011)利用logistic回归模型对银行信贷状况进行分析,以减少信用经济带来的损失和风险。李淑锦(2018)运用logistic回归实证得出传统金融借贷机构风险低于网贷平台,同时考虑阈值的设定对规避模型判断失误而导致的资金损失有重要意义。
  二、基于现代机器学习方法的信用风险评估综述
  基于机器学习的个人信用风险评估模型在近年来逐渐兴起,展现了相比传统风险评估方法较强的优越性。常见的现代机器学习方法有BP神经网络、K近邻、SVM支持向量机等。此外,基于树模型的机器学习方法也广泛应用于个人信用风险评估,如基础的决策树模型、相关集成模型如随机森林、GBDT、XGBoost、lightGBM等。
  在国外,Makowski(1985)是最先开启现代机器学习方法在个人信用风险评估领域应用的学者,他利用用户信用数据在分类树上构建模型,对好坏客户进行分类并取得了一定效果。Cover 和Hart(1986)提出K近邻方法,对于二分类的问题处理比较高效且被广泛应用于信用风险评估中。Odam(1990)最先将人工神经网络模型应用于个人信用评分模型,根据用户信用数据构建评分体系,指出人工神经网络在信用评分过程中有较好的解释性与应用性。Li(2000)对XGBoost 进行信用风险建模研究。Baesensl 等(2003)针对2003年之前的个人信用风险评估模型进行对比研究验证发现,线性判别分析法和Logistic 回归模型在进行信用风险评估表现出较好的效果。Stefan Lessmann 等(2015)在41种分类器对不同数据集进行分析,实验结果表明,集成模型如随机森林在信用风险评估效果上表现最佳。Brown(2012)指出,机器学习方法主要是通过监督学习对用户的信用数据进行模型构建,经过数据处理、特征提取等一系列操作对构建的模型进行用户行为和特征的预测,以此来判断用户下一次交易违约的可能性。
  在国内,姜明辉等(2004)利用K近邻方法研究了信用风险评估,对小数据集的分类风险问题进行实验分析。刘昕(2007)将人工神经网络运用于银行信用风险管理,得出神经网络比传统的打分法和统计模型判别正确率更高,并且在第二类错误率这一关键指标上优势较好。王润华(2010)改进支持向量机进行风险评估,得出多项式核进行分类在高斯核和线性核三种方法中表现效果最好。方匡南等(2014)引入Lasso-Logistic 模型,运用Lasso方法对重要的变量特征进行选择,这一组合进行个人信用评估可以明显加快计算速度。付永贵(2016)改进线性回归模型,并在大数据的基础上对网络供应商信用数据进行了研究。罗雅晨(2018)研究了数据不平衡问题,基于改进的随机森林方法提出比例平衡的随机森林模型用来建立个人信用评分模型。   三、信用风险评估文献最新研究进展
  近年来,针对数据不平衡、特征选择、数据维度高等问题,新的改进机器学习集成模型不断被提出,各种模型的组合器模型将几种算法相结合。最新研究表明,随着人工智能和大数据的发展,信用风控领域不断增强信用风险评估模型的预测效果和性能,基于深度学习的神经网络方法和组合模型运用的兴起成为了当今时代研究个人信用风险评估的重点领域。深层神经网络相较于传统的机器学习方法性能更高,风险控制能力更强,显著提高了金融行业风险测度水平,提供一个更安全的金融交易环境。
  Jian Luo(2020)改进支持向量机非线性核函数的敏感和对非线性核函数的敏感随机初始化,計算代价高、不适合非平衡数据集等问题,提出无核二次曲面支持向量机(QSSVM)模型。Mirko Moscatelli(2020)通过实证分析对比统计学方法,如线性判断分析和逻辑回归以及机器学习方法,如随机森林和梯度提升,比较得出在数据量较大的情况下机器学习方法在信用风险评估上精确度和表现性能明显优于统计学方法。Nisha Arora(2020)利用随机森林改进特征选择过程,提出Bootstrap-Lasso这一新方法,对比多个基础机器学习方法效果得出Bolasso使能随机森林算法(BS-RF)提供信用风险评估的最佳结果。Diego Paganoti Fonsecaa(2020)结合模糊分级和神经网络两阶段方法对现有数据进行简单分析,采用模糊逻辑将专家和从业者的意见结合在一起证明该方法可行性,解释了比商业广告提供的信用评分更便宜的解决方案评级机构。Yuelin Wanga(2020)比较分析了不同机器学习方法在信用风险评估中的应用,随机森林在五种基本分类器中表现性能最好,因此也有很多学者将随机森林作为预测模型的基分类器。Guanlin Li(2019)结合XGBoost,随机森林,SVM三种模型的高精度、鲁棒性和泛化能力的特点进行信贷违约风险的预测,结果证明组合器模型比单个模型预测效果更好,更有利于降低平台的坏账率,对金融风控起到较好作用。
  吴金旺,顾洲(2018)结合随机森林和逻辑回归两种方法对商业银行客户信用进行信用风险评估。王春才(2018)将主动学习和径向基网络进行融合,提出基于机器学习技术的风控模型用来进行异常用户检测和信用评分。王超(2019)利用一个神经网络模型、一个K均值聚类模型以及三个贝叶斯网络模型将多个算法进行相互验证,建立数据驱动的自适应优化学习机制进行贷款诈骗风险预测。杨德杰等(2019)运用深度学习方法提出基于堆栈降噪自编码网络风险评估模型,充分考虑数据特征之间的相关性进行分析。刘潇雅等(2019)针对支持向量机在训练高维数据不能主动进行特征选择导致准确率下降的缺点,构建C4.5决策树优化支持向量机的信用评估模型。莫赞(2019)针对在个人信用评估问题和风险日益剧增问题和数据集的不平衡问题,从梯度提升树组合特征和集成算法的角度出发提出一种基于Bagging集成学习算法的个人信用风险评估模型。关于集成学习模型的应用,王思宇(2019)运用lightGBM模型评估个人信用风险,结果表明对普通的决策树模型来说,该模型鲁棒性更好且预测更加精准。王心逸(2020)将GBDT模型进行风险控制,引入一系列评估系数作为模型评估指标对个人贷款数据集进行实证研究。李欣(2020)利用XGBoost改进传统的网格搜索法,解决参数寻优时耗费时间长的问题,由此建立风险评估模型。为处理高维特征,张雷(2020)针对特征选择和数据不平衡问题提出了RF-SMOTE-XGBoost模型,训练阶段采用粒子群优化算法对XGBoost模型做分类精度提高。刘伟江等(2020)将反映客户信息四个方面的特征变量相互连接综合成灰度图,建立基于卷积神经网络的客户信用评估模型,实证了基于深度学习的神经网络模型在信用风险评估上的可解释性。王重仁等(2020)提出的一种基于长短期记忆神经网络和卷积神经网络融合的深度神经网络个人信用评分方法,融合了基于注意力机制的LSTM 模型和CNN 模型两个子模型,显著提高了评估精度。
  四、研究评述
  统计学习方法在信用风险评估中因结构简单、解释力度较强而被广泛应用,但以变量之间存在线性关系为假设,预测效果缺乏准确性,在很多情况下并不能完全反映客户的信用状况,特别是对具有真实分析价值的信息难以提取。现代机器学习方法构建的风险评估模型通过数据训练精度较高,比较支持向量机、随机森林、决策树、集成学习等现代的机器学习方法,可以看出随机森林精度较高且具有良好的泛化能力,SVM预测风险准确度较低但稳健性较好,XGBoost和lightGBM作为比较新的方法,预测风险准确率更高。由于多种组合模型相较单一模型预测精度更高,最新研究将不同的机器学习方法进行结合,或者采用集成学习方法进行数据的特征处理,这种方法能够更好探索信用数据内部的相关结构,形成预测精度更高的分类组合模型。但这些机器学习方法也存在一些问题,如在计算用户风险指标权重时没有考虑到指标之间的相互作用,对于计算指标权重的风险评估模型较少,同时,由于其计算过程复杂、稳定性较低,还由于其解释能力不足而容易被认为是“黑箱”。
  随着大数据时代到来,人工智能不断深入金融风控领域,未来可以从以下三方面进行深入研究。第一,现有的机器学习方法主要针对特定的数据集进行静态风险预测,由于数据隐私问题,很多信息无法获取。运用机器学习方法结合人物画像对用户信息进行更加深度的动态提取也是一大方向,目前在此领域进行相关探索主要应用在银行风控等领域,未来可以对此进行深入挖掘,在对渠道多平台进行大数据累计并进行动态预测。第二,在风险评估模型建立上,现有一般模型属于常权综合模型,各指标值由于相互替代导致评估结果高估,以及各指标权重计算方法与标准不统一,并且对指标间存在相互影响的缺失值问题缺乏深度研究,对此也值得进一步分析和讨论。此外,人工智能时代本质上促进了深度学习的发展,智能人脸识别、智能渠道管控、智能数据监测等应用也加深了风险控制与管理,卷积神经网络、循环神经网络等复杂网络对人工智能做出更大贡献。目前国家大力提倡金融与科技创新性复合人才培养力度,打造深度学习性人才促进金融风控的发展。深度神经网络在信用风险评估方面的应用显示了金融风控强大的优势,未来结合大数据与深度学习进行风险评估,在保护用户隐私前提下进行更加精确地预测将是开展信用风险评估的一大趋势。   参考文献:
  [1]   Jian Luo a , Xin Yan b, Ye Tian. Unsupervised quadratic surface support vector machine with application to credit risk assessment[J]. European Journal of Operational Research,2020:1008-1017.
  [2]   Mirko Moscatellia,Fabio Parlapianoa, Simone Narizzanob, Gianluca Viggiano.Corporate default forecasting with machine learning[J].Expert Systems with Applications.,2020:1-12.
  [3]   Nisha Arora,Pankaj Deep Kaur. A Bolasso based consistent feature selection enabled random forest classification algorithm: An application to credit risk assessment[J].Applied Soft Computing Journal,2020:1-15.
  [4]   Diego Paganoti Fonsecaa, Peter Fernandes Wankea, Henrique Luiz Correa. A two-stage fuzzy neural approach for credit risk assessment in a Brazilian credit card company[J].Applied Soft Computing Journal,2020:1-13.
  [5]   Yuelin Wanga, Yihan Zhanga, Yan Lua, Xinran Yua. A Comparative Assessment of Credit Risk Model Based on MachineLearning—a case study of bank loan data[J].Procedia Computer Science,2020:141-149.
  [6]   王思宇.基于LightGBM算法的信用风险评估模型研究[J].软件导刊,2019,18(10):19-22.
  [7]   杨德杰.基于堆栈降噪自编码网络的个人信用风险评估方法[J].计算机科学,2019,46(10):7-10.
  [8]   刘伟江.基于卷积神经网络的客户信用评估模型研究[J].數据分析与知识发现,2020,(6):80-90.
  [9]   张雷.基于RF?SMOTE?XGboost下的银行用户个人信用风险评估模型[J].现代电子技术,2020,43(16):76-81.
  [10]   刘潇雅,等.基于C4.5算法优化SVM的个人信用评估模型[J].计算机系统应用,2019,28(7):133-138.
  [责任编辑   柯  黎]
  收稿日期:2021-12-29
  基金项目: 国家自然科学基金项目“基于Groebner基础论和距离不变量方法的指标多项式标准型及应用研究”(11701370)
  作者简介:毛子林(1998-),女,湖南常德人,硕士研究生,从事金融风控和机器学习相关领域研究;刘姜(1983-),女,江苏泰州人,博士,副教授,从事复杂系统与深度学习研究。
其他文献
摘 要:财务管理是医院管理非常重要的内容。从创新医院财务管理的角度分析如何提升医院管理水平,针对目前医院财务管理中存在的问题,医院财务管理主要控制模式及创新医院财务管理提升管理水平提出以下措施:一是结合当前医院实际情况制定成本管理办法,对医院各个科室消耗费用定额管理;二是医院成本核算中要归类设备折旧费用和材料费用等,并及时清算医院财务、物资消耗费用,将各个科室作为成本控制中心,得出各科室年度实际成
通过对天神娱乐并购幻想悦游进行案例分析,旨在探求业绩承诺在保护中小股东利益方面的作用.研究发现,业绩承诺的签订短期内提升了公司的盈利能力,推动了股价的上涨;履约期间,
摘 要:我国的经济发展主要是以市场经济为主,以计划经济为辅,想要促进市场经济健康、快速发展,需要对国家的财政税收政策给予更高的重视,从此角度展开对市场经济的调整。通过对财政税收手段的应用实现对于市场经济的正向调节作用,让市场经济朝着好的方向发展,也就能够在最大程度上避免可能出现的不同类型的问题和缺陷,同时也能进一步提升经济发展的速度。虽然财政税收手段能够对市场经济发展起到调节作用,但是也要意识到必
摘 要:在“一带一路”的背景下,大多数中国企业开始关注外商投资,以加快“走出去”的步伐。然而,黑龙江省在对外直接投资的过程中却面临着分业监管和垂直监管体制下的监管“真空”、对外进行投资企业金融发展风险控制管理会计制度体系不够完善、海外金融风险能力分析和预警不足、金融机构监管手段单一并落后等诸多的问题,导致在对外投资活动过程中可能存在较高金融风险。针对上诉问题,黑龙江省采取一些措施防范外商投资的金融
当前,我国正在进行科创板注册制的试点工作,推进核准制向注册制过渡,出现了首例注册失败的案例“恒安嘉新”.通过对注册失败案例的研究分析,归纳总结注册制在我国目前存在的
摘 要:土木工程在国民经济建设中占据重要地位,是国民经济建设中的重要组成部分。土木工程主要包括道路建设、房屋设施建设、隧道及桥梁等设施建设。土木工程在国民生产的各个领域都有涉及,土木工程的飞速发展对我国的国民经济建设有巨大推动作用。基于此,概述了土木工程的发展历程,详细阐述了土木工程在国民经济建设中的重要地位。  关键词:土木工程;国民经济;发展  中图分类号:F047.2 文献标志码:A
基于我国地区制度环境存在较大差异的背景,以2012—2018年深沪A股国有上市公司为研究样本,实证检验股权集中度如何影响企业技术创新,并探析制度环境对股权集中度和技术创新的
以豫园旅游商业区为案例,对上海市黄浦区全域旅游背景下的商旅文街区游客满意度的基本现状进行了深入分析,从而探究如何在全域旅游的大背景下更好更有效进行商旅文街区的提升
摘 要:隨着中国经济进入中高速增长的新常态,中国品牌发展的宏观环境发生了巨大的变化,人民生活水平也得到了大幅度的提升。品牌在此背景下,迎来了以高端化、数字化、年轻化为典型特点的转型升级的新常态。而消费者结构的调整和消费特点的转变为品牌发展提供了新的可能。从温饱型转向品质型的发展为消费需求的新导向,着力加强高品质产品、服务的有效供给,提升消费品质的依据就是供给侧结构性改革,从而来完成消费跃升的转变。
摘 要:在推进市场经济体制改革的过程中,我国企业所面临的外部环境发生了许多的变化。为了有效应对经营业市场竞争的挑战,许多企业开始将工作重心放在内部管理体制的改革上,积极调整管理模式以及管理手段,确保对症下药,从整体上提升自身的综合实力。作为内部管理体制中的重要组成部分,绩效考核对企业的发展有非常深远和直接的影响,企业管理层需要着眼于经营管理工作的现实问题,深入研究绩效考核工作的具体内容及形式,加大