基于机器学习的个人信用借贷风控模型构建

来源 :求知导刊 | 被引量 : 0次 | 上传用户:yy20092
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:近年来,随着网络个人贷款在中国蓬勃发展,一些平台出现提现困难、经侦介入、跑路等问题,究其原因主要是平台对风险的控制不过关。文章对国内网络借贷行业的贷款风险数据(来源:拍拍贷官网)进行选择分析,基于机器学习技术提出个人借贷风控模型的构建方案,为投资人提供关键的决策思路。
  关键词:xgboost;SVM;逻辑回归模型
  中图分类号:F832.4
  文章编号:2095-624X(2019)06-0014-03
  一、概述
  本文的研究目标是根据用户历史行为数据来预测用户在未来6个月内是否会逾期还款的概率。该问题可以转换成二分类问题,从数据表中构建特征,评估指标为AUC,其本质是排序优化问题,所以本文在模型顶层融合也使用基于排序优化的rank_avg融合方法。
  本文首先从数据清洗开始,介绍我们对缺失值的多维度处理、对离群点的剔除方法以及对字符、空格等的处理;其次进行特征工程,包括对地理信息特征构建、组合特征构建和数据表的特征提取等;再次进行特征选择,本文采用xgboost,其训练过程即对特征重要性排序过程;最后一部分是模型设计与分析,采用了工业界广泛应用的逻辑回归模型,并基于Large-scale SVM的方法在本课题上的应用,取得了较好的效果。
  二、数据清洗
  1.缺失值的处理
  在个人信贷问题中,用户所提供自身信息的数量对其在信贷体系中的信用等级有着至关重要的作用,所提供的信息越详细则越容易通过审核得到贷款。我们以此为切入点来分析和处理原始数据中的缺失值。
  首先,以行为单位统计各样本的属性缺失值个数。按照缺失属性的个数由小到大排序,绘制散点图并分析得出,训练集和测试集中的各样本缺失属性的个数的分布情况基本一致。同时在训练集数据中,序号在80000附近的少量样本的缺失属性个数非常多,可视为离群点删除。其次,以列为单位统计各个属性缺失值个数,并计算相应的缺失率,分析其中两列缺失率达到97%,且这两种属性没有有效的信息,故可直接删除。而缺失率达到63%的三种属性为分类型数据,可以用-1来代替缺失值,从而等价于表示“是否缺失”的新类别。除去前五种缺失率较高的属性,其余属性的缺失率都比较低,因此可用中值代替。补全数据后最终达到了可以研究的目的。最后,缺失值的个数也可以作为一项衡量用户信息详细程度的重要指标。
  2.常变量的剔除
  题目提供的数据中数值型特征有190个,我们可以计算每个特征的标准差后,将所得结果按照从大到小排序,从而删除标准差最小,即变化较小的特征。
  3.离群点的剔除
  样本空间中有一些样本点与其他的特征或一般行为不相符,这些点便可称为离群点。由于离群点的不同特征可能是多种因素造成的,在上文中我们就已通过分析处理缺失值的个数来筛选少量离群点。
  但在本节中,我们在题目提供的数据上训练xgboost,用得到的xgb模型来评价各个特征的重要性,对其进行由大到小的排序得到前10个最重要的特征,如图1所示。然后分别计算每个样本的这10个特征的缺失值个数。如若缺失值个数大于10个,则将其视为离群点。这些离群点缺失了前10个特征上的取值,给训练模型增加了很多麻烦,不便于处理,故需要删除。
  4.其他处理
  将数据表中其他数据进行相应处理,如英文字符统一为小写;数据包含了空格字符,是同一种取值,如“中国 电信”与“中国电信”,删除空格字符;含有“长沙市”“长沙”等情况,其意义相同,故统一删除“市”这个字符。
  三、特征处理
  1.地理信息处理
  针对地理位置信息(类别变量),我们想到的处理方法是利用独热编码(one-hot encoding),然而如此会产生较高维的稀疏特征,阻碍模型学习的效率和有效性,对此我们先对数据进行筛选。
  数据中包含了六个字段的用户地理信息,当中的两个字段为省份,另外四个为城市信息。我们计算各省份和城市的违约率,违约率最大的几个地区分别为吉林、天津、山东、湖北、湖南以及四川,由此,我们设立6个二维特征,分别为:“是否为吉林省”“是否为天津市”“是否为山东省”等,取其值为0或1。即对其地理信息进行了独热编码处理,保留其中判别性特征。之后,由于城市信息建立二值特征产生的稀疏特征维度较高,分析难度较高。因此我们对独热编码处理后的高维稀疏特征进行xgb模型训练,根据输出的特征重要性筛选出二值特征。
  根据城市等级合并。因类别特征取值个数太多,对其独热编码处理后所得稀疏特征维度较高,我们还使用了与上面不同的合并变量方法。
  城市特征向量化。统计城市特征中城市数,并取对数,之后等值离散化到6~10个区间内。
  地理信息差异特征。地理信息中有4列为城市。因此我们设置城市差异特征,如diff_12表示1、2列的城市是否一致。
  2.成交时间特征
  依日期来统计训练集中每日借贷成交量,正负样本分别计算,得到如下的曲线图2,横坐标是日期(20131101至20141109),纵坐标是每日借贷量。count_1曲线是违约样本每日数量(为了体现对比,将量扩大一倍),coun_o曲线对应未违约数量。
  由图中可以看到拍拍贷业务量总体呈增长趋势,而违约量前期有缓慢增长,之后基本趋于平稳,总体上违约率为平稳甚至下降趋势。在300~350对应的日期区间内,有一些借贷量非常大的情况出现,其中可能隐藏着我们尚未挖掘出来的某些信息。
  3.特征组合
  训练完成xgboost后可以输出特征重要性,我们发现第三方数据特征“ThirdParty_Info_Period_XX”的feature score較高(见图1),即判别性比较高,于是用这部分特征构建了组合特征:将特征相除得到6000多个特征,之后使用xgboost对其单独进行模型训练,得到特征重要性排序,取其中前450个特征线下cv能达到0.73以上的AUC值。将其添加到初始体系中,线下cv的AUC值从0.777提高到0.7833。另外,也组合了乘法特征(取对数):log(x*y),筛选出其中的240多维,加入初始体系中,单模型cv又提高到了0.785左右。
其他文献
罕见生殖系统恶性肿瘤合并妊娠极为少见,本文主要讨论外阴癌、阴道癌、子宫内膜癌以及输卵管恶性肿瘤合并妊娠.
【摘要】本文通过溶胶-凝胶法制备了TiO2光催化剂,并在此基础上制备了掺杂硫酸锰的TiO2光催化剂。通过对亚甲基蓝的光催化降解实验表征了以上光催化剂在可见光下对染料污染物的降解能力。  【关键词】纳米二氧化钛;掺杂; 溶胶-凝胶法  自从1972年Fujishina和Honda发现在光照条件下TiO2能够分解H2O以来,TiO2的光催化性能日益受到学者们的重视[1-3]。但TiO2光谱响应范围窄限
1设备概况一台管排式换热器,用于冷却氧化铝粉料,冷却介质为水,进水温度t1=20℃,出水温度t2=60℃,氧化铝粉料在压缩空气带动下横向通过冷却排管。氧化铝粉料进口温度T1=200%,出口温
【摘要】音乐艺术是特定文化的产物,脱离了文化,其就成了无本之木,无源之水。文章概述了音乐文化与音乐教育的概念,明确了两者间的联系,并就音乐文化与音乐教育协同发展的实现提出相应对策,意在为音乐艺术的长足、稳定发展提供参考与支持。  【关键词】传承 发展 专业门槛  音乐艺术虽然不是主课,但是也是学生综合素质学习与发展中必不可少的课程,跟生活息息相关必不可少,与文化课相辅相成。如何正确的看待音乐艺术就
目的:探讨经阴道无张力尿道悬吊术(tension free vaginal tape,TVT)治疗尿失禁的临床价值.方法:对22例压力性尿失禁患者采用TVT手术,观察手术时间、术中出血量、术中损伤、术
【摘要】如何指导孩子们对数学进行预习,我们首先要了解什么是预习。《新课程标准》指出:预习是学习的个体一种独立的探索活动。学生凭借已有的知识、生活经验和学习方法,自主探索,从而激发学生的学习兴趣,增强学生学好数学的信心,促进学生的发展。简单地说预习是指教师在进行新课前,让学生预先阅读教材,了解有关新知识,并独立地进行思考,探索获取新知识的一种学习方式。预习是学生听课前独立地对新教材进行准备性地学习,
万木草堂,著名学者康有为于光绪十七年(1891)在广州长兴里创建。光绪十六年(1890)春,他举家迁往广州。并开始讲学。由于他以布衣上书的名气很大,致使当时正在学海堂书院读书的陈千秋
一代大师吴宓,一生致力于中国传统文化和西方文学研究,开创了中国比较文学在大学教育的先河,为中国现代文化、教育的发展做出了重要贡献。但因诸多因素,人们至今对其仍缺乏科学认
特种设备智慧监管系统是破解特种设备监管信息不对称的有效手段。成立特种设备专家组辅助执法部门监管是充分利用特种设备使用单位专业管理人员的技术优势,互助协作,协助监管
摘 要:近年来,旅游产业飞速发展,农村居民对旅游消费的需求不断增加,文章作者对吉林省农村居民出游意愿及因素进行研究。文章分析了吉林省农村居民旅游现状,探讨了影响农村居民旅游的因素,并提出了促进吉林省农村居民出游的对策建议。  关键词:吉林省农村居民旅游;意愿;影响因素  近年来,随着三农政策的大力开展和农村居民收入水平的不断提高,越来越多的农村居民增强了旅游意愿,产生了旅游需求,但是真正能走出去的