基于机器学习的信贷风控研究

来源 :南京邮电大学 | 被引量 : 5次 | 上传用户:tgw2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着“互联网+”概念的普及,我国互联网金融行业迅速发展,个人信贷业务市场份额也快速增长,使得业务数据变得复杂多样。传统的信贷风控大多是模型驱动的策略,已经不能够满足违约风险预测的需求,导致各类违约事件频发,给机构带来较大的损失。因此,需要引入机器学习算法,来完善信贷风控机制,促进信贷业务市场健康、可持续发展。本文采用机器学习算法针对信贷风控场景中的两个问题进行解决。第一,在新的信贷产品投放初期,由于没有业务积累,仅有少量标记数据和大量无标记数据,因此不能建立数据驱动的有监督信贷风控模型;第二,在信贷产品投放一段时间后,积累到了一定量的数据,大多数机构会采用逻辑回归(Logistics Regression,LR)来实现信贷风控建模,LR模型简单且易于实现、训练速度快,但是这种模型属于线性模型,学习能力有限,不能学习到特征间的非线性关系,需要信贷业务经验丰富的风控工程师做人工特征组合,因此需要耗费大量的人工成本。围绕以上问题,本文主要工作如下:(1)针对信贷产品投放初期,不能建立数据驱动的有监督信贷风控模型的问题,本文提出了基于狄利克雷过程混合模型(Dirichlet Process Mixture Model,DPMM)和隔离森林(Isolation Forest,IForest)的冷启动方法。该方法采用DPMM计算出了无标记样本的违约相似度,采用IForest计算出了无标记样本的违约异常度,综合违约相似度和违约异常度筛选出可靠正常样本和潜在违约样本,为后续监督模型训练提供充足样本。(2)针对信贷产品投放后期,单一LR模型对数据特征间非线性关系学习能力不足的问题,本文提出了基于Bagging的XGBoost-LR模型融合方法。该方法采用极限梯度提升树模型(e Xtreme Gradient Boosting,XGBoost)进行特征转换,将其叶子节点的输出,作为LR模型的输入,进而提升LR对非线性数据特征的学习能力,同时引入Bagging机制,对XGBoost的行采样参数和列采样参数进行扰动,建立多个XGBoost-LR融合模型,进一步提升模型预测能力。为了验证上述两种设计方法的有效性,本文利用某互联网金融公司信贷脱敏数据集和多个UCI数据集,对上述方法进行了实验仿真。同时,为了体现设计方法的实用性,本文设计了一个信贷风控系统。
其他文献
简要简绍塑料给水管替代镀锌钢管的因素,对常用塑料给水管材作了较详细的介绍,并就其物理化学性能、工程技术性能、经济性能进行了充分的阐述、比较。
U-PVC管的中文全称为硬聚氯乙烯,这种材料的管材最早出现在德国,是德国研发生产的,与其他材料相比,这种材料的管材具有独特的优势特征,而且在新型高端技术的辅助加工下,管材在质量
目的比较滤波反投影(Filter back-projection,FBP)、高级迭代重建技术(High iterative reconstruction,i Dose4)、模型迭代重建技术(Iterative model reconstruction,IMR)这
城市规划现场管理工作主要包括建筑放线、基础竣工、违法建筑测量等。目前采用传统测量方法进行测绘时存在较多的困难,亟须一种新的测量手段来解决城市规划现场管理中存在的
试验选择7日龄海兰褐蛋雏鸡192只,采用随机区组法设计,设3个处理,每处理4个重复,每重复16羽,A组为抗生素组:基础日粮+杆菌肽锌20 mg/kg+粘杆菌素4 mg/kg,B组为果寡糖组:基础
传统中继网络通常由容量有限的电池供电,在许多严苛或特殊环境中频繁更换电池往往不可实现,导致通信质量和设备生存周期受到了严重制约,将信息与能量协同传输(Simultaneous W
预测能够在自觉认识客观规律的基础上,较准确地揭示出客观事物运行中的本质联系及发展趋势,勾画出未来事物发展的基本轮廓,为决策提供充分的科学依据.没有观测就没有拟合,没
灵越魔方系列笔记本电脑是戴尔最新推出的360度翻转屏幕的二合一新系列,该系列机型尺寸种类较为广泛,11、13、15英寸机型全部涉及,多种配置档位更能满足多种要求。这个系列已
目的了解深圳市松岗街道学龄前流动儿童龋齿患病情况及口腔保健行为对龋齿的影响,为开展流动儿童口腔保健与治疗提供依据。方法问卷调查3 000名学龄前儿童抚养人,对流动儿童
中国共产党领导创建的革命文化的精华是长征精神,其中蕴含着丰富的自信品格。传承与弘扬长征精神有助于夯实文化自信的基础,有助于走好中华民族崛起的“新长征”。当前我们必