基于分层排序加权融合的P2P网贷违约预测模型研究

来源 :东北财经大学 | 被引量 : 3次 | 上传用户：wangchong123

【摘要】

：

作为互联网金融的重要组成部分,P2P网络借贷扩展了传统金融行业的服务范围。新兴的互联网金融平台虽然具有进入门槛低,操作快捷,简单的特点,但是与传统金融模式相比投资方风

【作者】

：

于斌

【出处】

：

东北财经大学

【发表日期】

：

2018年01期

【关键词】

：

互联网金融 P2P 特征工程机器学习模型融合

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

作为互联网金融的重要组成部分,P2P网络借贷扩展了传统金融行业的服务范围。新兴的互联网金融平台虽然具有进入门槛低,操作快捷,简单的特点,但是与传统金融模式相比投资方风险防控能力差的特点格外明显。因此,基于网贷用户的信用风险评定以及违约预测变得尤为重要。在网贷业务的场景下,贷款额度一般比向银行申请贷款低,但是由于受众用户较多,贷款业务量十分庞大。因此,仅仅依靠传统的人工审核或者用户个别信息进行筛选的计量方法已经无法满足需求。实际上,网贷平台依托于互联网的整体大环境,其天然存在一定的数据优势,充分利用好网贷平台的现有数据并整合互联网中用户的支付,购物,社交等数据对其违约率进行预测是未来发展的一大方向。大数据场景下,P2P网贷风控的核心方法在于,通过研究分析数据的基本情况,通过数据清洗和特征工程的步骤,利用机器学习的方法来建立数据驱动的风控模型,并将其应用到风控审批的业务流程中,来指导审批业务的开展,这也是本文的研究方向和目标。在国内,目前包括人人贷,融360,拍拍贷,蚂蚁金服等都在积极推动数据化风控模型的建设。各个公司不仅在内部深入研究反欺诈模型,同时也积极支持在校学生和数据科学家的研究,共同推动着互联网金融反欺诈的发展。本文使用拍拍贷公布的真实历史交易数据,客户登陆日志以及客户信息更新日志作为研究对象,根据这三个主要信息进行网贷违约概率预测模型的研究。首先从多个角度对数据进行观察分析和处理:其中有,原始数据基本情况统计,多角度观察数据的缺失情况,变量类型调整,常变量删除,对数据原始记录进行形式统一化。然后,对清洗好的数据进行特征工程操作。特征工程的主要工作有以下几个方面:根据用户登录日志将原始时间进行更细粒度地刻画,根据用户更新日志表数据,构造用户修项内容个数和修改次数等相关特征。此外,为了减少数值型数据的异常值干扰和增加模型的鲁棒性,本文针对数值型变量使用了排序特征和统计特征。最后,根据特征的相关系数对大于0.99的特征进行删除。根据前面的工作得到的干净数据和特征,分别使用机器学习领域的线性模型LR,树模型CatBoost和非线形模型神经网络进行建模。在超参数选择的步骤中,使用Hyperopt库可以相对更有效率的得到较优的模型结果。同时,为了保证模型的稳定性和泛化能力,将训练集根据9:1的比例切分为训练数据和验证数据。由于本文研究的场景下的数据是不均衡的,因此本文在对数据切分的时候,根据目标变量的比例进行分层划分,这样得到的训练数据和验证数据分布是几乎一致的,得到的结果更可信。确定模型的超参数,得到三个基模型后本文从运行时间和AUC的角度对模型结果进行了分析和比较。首先从评估指标AUC的角度出发,在本文研究的P2P网贷违约预测场景下,CatBoost模型的的效果优于神经网络和LR。模型运行时间上,LR模型时间最少。模型得到的特征重要度分析,发现在大数据,移动互联网的当今社会,可以通过更深入地挖掘第三方信息对用户进行刻画,对预测用户是否会违约还款具有很大的作用。得到三种基模型后,为了进一步提升模型效果。本文首先使用了简单线形加权融合方法,得到的融合结果相对单模型有所提升。由于CatBoost模型在验证集上的表现优于它两个模型,在简单线性加权融合的方法中会导致其权重占比过高,无法充分利用模型的差异性进行融合,达到最优的融合效果。因此,本文对线性加权融合进行改进,创新性地提出分层加权融合,分层排序加权融合的方式,使得模型结果得到最优。本文研究的虽然是互联网金融领域P2P网贷违约预测的数据,但是整体的研究思路和方法,在机器学习领域中具有十分有效且实用的价值。

其他文献

埃索美拉唑致下肢水肿1例

1临床资料患者女性,63岁,因单位体检时发现碳13-尿素呼气试验强阳性,伴反复胃部疼痛、反酸、嗳气,于2016年7月9日来本院门诊行胃镜检查示胃底、胃窦黏膜充血水肿、欠光滑,诊

期刊

埃索美拉唑水肿不良反应

用一生做爱国者,好老师,好医生

一、奠基:扎根中国肿瘤临床事业在新中国成立初期,我国最常见的疾病是营养不良、新生儿死亡以及一些急性传染病,1957年中央敏锐地认识到肿瘤在卫生工作中的地位越来越重要,果

期刊

肿瘤专科医院中国肿瘤临床新生儿死亡新中国成立初期急性传染病营养不良爱国者

复发性流产与染色体相关因素的研究进展

复发性流产(recurrent spontaneous abortion,RSA)是指连续发生2次或2次以上的胎儿丢失,本文综述了RSA与染色体相关因素的研究进展。RSA的病因复杂,主要有染色体异常、生殖道

期刊

复发性流产染色体异常精子非整倍体产前诊断

临床护理路径应用于急性肾衰竭病人的临床效果

[目的]分析并评价临床护理路径应用于急性肾衰竭治疗中的临床效果。[方法]92例急性肾衰竭病人随机分为观察组与对照组各46例。观察组根据临床护理路径实施护理,对照组给予常

期刊

急性肾衰竭临床护理路径质量

Acutrak螺钉治疗Danis-Weber B型外踝骨折的疗效分析

目的探讨采用Acutrak螺钉治疗移位性Danis-Weber B型外踝骨折的临床疗效。方法选取2012年1月至2013年12月采用Acutrak螺钉治疗的移位性Danis-Weber B型外踝骨折的临床资料进

期刊

外踝骨折骨折固定术Acutrak螺钉

HFSR可预测索拉非尼治疗HCC疗效再添力证

索拉非尼治疗HCC疗效如何尚无高质量的循证依据。哈尔滨医科大学第一附属医院孙学英教授等进行了一项系统综述和Meta分析，于2017年8月底发表在《胃肠病学和肝病学杂志》上，现将

期刊

索拉非尼HCC疗效治疗哈尔滨医科大学预测META分析系统综述

中国医疗保健国际交流促进会第二届华夏肿瘤高峰论坛会议通知

由中国医疗保健国际交流促进会、国家癌症中心、中国医学科学院肿瘤医院主办,中国医疗保健国际交流促进会肝脏肿瘤分会、结直肠癌肝转移分会等8家分会联合协办的“第二届华夏

期刊

结直肠癌肝转移癌症中心肿瘤诊治放疗科国际会议中心肝脏肿瘤科普教育著名专家学者

跨关节钢板内固定治疗Lisafranc损伤

目的应用跨关节钢板内固定治疗Lisfranc损伤,观察临床治疗效果。方法选取2011年9月至2013年9月华中科技大学同济医学院附属普爱医院足踝外科共收治的46例Lisfranc损伤病例,均

期刊

跖跗关节损伤钢板内固定跨关节

视频精粹——临床研究设计经验分享

临床医生进行临床研究意义重大，不仅可以推动临床具体问题的解决，改善患者预后，甚至能够给疾病的治疗原则带来里程碑式的改变和进步。今天跟大家分享我在临床研究上的一些体会和

期刊

临床研究设计视频临床医生治疗原则

上善若水,大爱无疆,让慈善的足迹遍布“健康中国”--索拉非尼患者援助项目十年回顾访谈

索拉非尼开启了肝癌分子靶向治疗的新时代,自获批上市应用10余年来,因突出的安全性和疗效,得到医生与患者认可,使患者显著获益。由中华慈善总会与拜耳公司合作的"索拉非尼患

期刊

索拉非尼肝癌治疗分子靶向治疗肝癌患者中华慈善总会肝胆外科大爱无疆拜耳公司

基于分层排序加权融合的P2P网贷违约预测模型研究

与本文相关的学术论文