多任务学习在信贷风险建模中的应用

来源 :西南财经大学 | 被引量 : 0次 | 上传用户:wufala
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
《新巴塞尔协议》将违约损失率纳入银行监管资本的计量框架之中,使得违约损失率成为信用风险管理领域的一个重要研究课题。同时,违约损失率的准确预测,对银行保证资本充足、维持金融体系的稳健都有着重要作用。本文采用多任务学习方法,希望能提高违约损失率预测的准确性。
  本文选取了美国著名网络借贷平台Lending Club官方网站所提供的2013年-2016年的贷款数据,包括借款人的身份信息、财务信息以及贷款信息等,对违约损失率和违约概率两个任务进行学习。只保留贷款状态为贷款注销和完全还款两种状态的样本数据,剔除正在还款中以及逾期还款等中间过渡状态的样本。将贷款注销的样本定义为违约概率预测任务的正样本,完全还款的样本定义为负样本,并对贷款注销的样本计算其违约损失率,作为违约损失率预测任务的目标变量。
  本文主要针对违约损失率预测任务的数据稀缺以及现有计量模型有限等问题,提出将多任务学习方法同时用于违约损失率和违约概率的预测中,希望能提高对违约损失率的预测精度。本文主要建立了神经网络硬参数共享的多任务学习模型,同时与线性回归、逻辑回归和单任务神经网络模型相比较,评估各个模型对违约损失率预测的效果。本文通过L1正则完成初步的特征选择,同时探究了多任务学习神经网络中两个任务损失函数权重之比对模型评估结果的影响,最后经过仔细调优,得到了最终的模型评估结果。本文研究结果表明,将违约概率预测任务作为辅助任务,利用多任务学习神经网络模型,可以在一定程度上提高违约损失率的预测精度。两个任务同时训练,使得违约损失率预测任务可以多利用两部分信息,一是贷款状态为完全还款的大量样本数据,这在单独的违约损失率预测任务中是无法利用的;二是违约损失率预测和违约概率预测两个任务的相关性中所包含的丰富信息。
其他文献
随着我国经济的快速发展,空气污染问题也越来越严重,影响了人们的身体健康和日常活动,因此利用数学模型来研究空气污染指数有着重要意义。  本文首先给出了一个随机微分方程来描述空气中污染物的动力学模型,并使用Euler–Maruyama算法对方程进行离散化,利用2014年至2017年间武汉市空气质量指数的数据,通过极大似然估计得到了方程的参数,并对未来两年的空气质量指数进行离散化模拟。之后,将随机微分方
分数Brown运动(FBM)在长记忆过程的研究中占据了极其重要的位置,特别是随着随机积分理论的发展以及Black-Scholes期权定价理论的形成,FBM在时序分析中的地位日益突显,成为自然过程和金融市场中常用的数学模型,方兴未艾的Hurst指数估计方法也成为人们关注的重点。  本文主要研究了推广的复合分数Brown运动以及Hurst指数的贝叶斯估计方法。本文首先介绍了FBM的各种性质、模拟方法和
本文综合统计分析方法、空间基尼系数、泰尔指数、空间面板等方法对2000—2017年全球人类发展水平空间差异演化及影响因素进行研究发现:①从2000年到2017年,全球HDI平均水平从0.630上升到0.717,增长了13.78%。但是从全球平均HDI增速来看,全球人类发展水平增速逐步趋缓。HDI三个分项指数值其绝对值由高到低依次为寿命指数、收入指数和教育指数。教育指数虽然得分最低,但增长最快,表明
近年来,随着人们消费观念的改变和互联网科技的进步,消费金融行业得到了蓬勃发展,越来越多的企业涌入这一领域。然而,在消费金融覆盖人群越来越广的同时,贷款欺诈现象也愈演愈烈。因此,在放贷过程中,对客户信用的鉴别显得格外重要,这也是风险控制中的重要环节。传统的风险建模运用了用户的大量信息作为协变量建立统计模型或机器学习模型,用模型的输出来判定客户的信用水平。但是在有些情况下,用于建模的协变量包含的信息可
学位
数据时代的到来使得数据逐渐上升为国家战略性资源,作为数据的重要载体,数据库的经济价值也日益凸显。与SNA1993不同,SNA2008将数据库与计算机软件剥离开来独立作为一项固定资产进行核算,此变革正是对其经济价值不容忽视的认可。然而,令人遗憾的是即便数据库的经济价值已不可小觑,目前几乎所有国家实践中均未将其纳入核算,有些国家甚至未将其纳入本国核算体系。究其原因,不外乎数据库核算理论有待完善以及统计
随着大数据时代的到来,海量数据的出现,数据缺失的问题越来越严重。缺失数据给应用研究和统计分析带来了很大困扰。传统的统计分析方法不能直接应用到缺失数据的处理中,不恰当的处理缺失数据,会导致错误的结论。因此,缺失数据的处理一直以来都是统计学的前沿和热点问题。本文考虑缺失数据下转换模型的统计推断问题,我们采用逆概率加权光滑最大秩相关估计方法来估计转换模型中的感兴趣参数,并对所提出估计量的渐近正态性和相合
学位
针对信用卡申请评分中的数据不平衡问题,本文提出了一种可以用于连续变量与分类变量混合的混合数据的欠采样方法——UMBKER。该方法可以在基本保持原有多数类样本数据分布特性不改变的前提下,有效地去除多数类样本中较为冗余的样本,从而达到降低数据不平衡率、减少不平衡数据对模型影响的目的。  UMBKER算法是一种适用于混合数据聚类的KAMILA聚类方法与去冗余算法相结合的欠采样方法。该方法先对数据集中的多
2008年的金融危机,对全球经济造成振荡,与此同时,也让经济不确定性逐渐成为学者和政策制定者不容忽视的问题。不确定性的研究早已有之,但量化经济不确定性的困难阻碍了相关研究的进一步发展。现有的测度主要在国家的维度展开,测度的方法,根据所使用数据的不同,可以划分为基于统计指标的测度、基于主观意见的测度和基于媒体信息的测度。考虑到我国各省域之间的异质性以及宏观经济不确定性测度的研究趋势,本文旨在测度省域
学位
自从金融诞生以来,风险就伴随其左右,随着网络贷款平台的迅猛发展,信用风险问题层出不穷。2016年8月,监管部门发布了《网络借贷信息中介机构业务活动管理暂行办法》,为行业的规范发展指引了道路。无论是出于金融机构本身对于预期损失和收益估算的需要,还是基于监管部门对金融机构的要求,金融机构都需要对信用风险各项指标做预测。2004年颁布的《新巴塞尔资本协议》充分反映了一笔交易的信用风险既包含债务人的违约概
学位
由于我国各个地区在经济水平、政府调控、区域企业特征、区域人口特征等方面存在较大差异,货币政策的调控效果并不都能达到预期目的,即货币政策的传导效果呈现区域非对称性。不少学者探索了我国货币政策区域非对称性的成因,但是多数文献着眼于货币政策对总产出和物价水平的调节,而忽视了宏观货币政策波动对微观企业行为的影响。  因为企业是国民经济的主体,企业行为会受到货币政策的影响。企业之间不仅在产权性质、资本规模等
学位