基于数据不平衡的P2P网贷违约识别研究

来源 :浙江工商大学 | 被引量 : 0次 | 上传用户:binglei2_zj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着普惠金融理念的普及,P2P网络借贷行业借着普惠金融的“东风”,迎来了行业的第一个高潮,P2P网贷因其能充分发挥个体借贷优势,它可以快捷地为中小企业和低收入个体提供力所能及的金融服务,所以受到了资本的疯狂追捧。正是由于资本的大量涌入,P2P行业在野蛮成长之后,便迎来了一系列风险爆发事件。对于具体的网贷平台而言,在众多的因素当中,用户恶意违约现象是最大的痛点,能否有效地减少高违约率现象,提升恶意违约的识别准确率,是平台防范风险的重要工作内容。针对P2P网络借贷行业普遍存在的高违约率现象,本文试图基于数据不平衡的视角来研究违约问题。首先,介绍了P2P借贷业务的相关概念和数据挖掘模型理论,重点阐述了改进的SMOTE算法的基本思路,从三角形区域和系数的角度,设计了新的人工合成少数类的机制;其次,介绍了粗糙集理论中计算变量重要性的过程,完善了原来的仅依靠随机森林获取重要性的机制,帮助了SMOTE算法合成更佳的少数类样本;然后,以Lending Club数据集为例进行统计分析和数据预处理;接着建立Logistic回归模型、随机森林模型和XGBoost模型,并选择准确率、召回率、F-value、G-mean等评价指标对模型的表现效果进行评估和对比;最后,从每个模型中选择表现最好的RST_new_smt算法,进入模型融合阶段,采用基于召回率的线性加权方法,建立最终的违约识别模型。本文的研究结果表明,本文提出的改进SMOTE算法有助于模型识别违约用户,而且引入的粗糙集理论,有助于选择出合理的重要变量,从而间接地提升模型的识别准确率,这说明基于数据不平衡的视角来研究违约问题是可行的。本文还在Logistic回归模型、随机森林模型和XGBoost模型的基础上,进行模型融合工作,融合后的P2P网贷违约识别准确率具有比单个模型更优的效果。此外,本文建议P2P借贷平台,对于训练数据集应该尽可能地保持完整、干净和易区分,以及利用多种模型来展开违约识别工作。
其他文献
全球治理格局在过去几年中发生了重大变化。发达国家逐渐摆脱了全球性金融危机爆发以来的经济增长停滞态势,以金砖国家为代表的新兴经济体则似乎正丧失世界经济增长领跑者的
通过分析、总结连锁便利店服务质量的影响因素,运用层次分析法确定其权重,建立连锁便利店服务质量的模糊综合评价模型,最后得到连锁便利店服务质量的评价结果,为改进连锁便利
针对双轮强旋提出一种基于轧制力的旋压力计算方法,克服传统旋压力计算时对金属堆积的忽略而造成的误差,通过电测法工艺实验验证,该算法准确有效。并以该算法为基础建立模型
从工程上看,盾构系统最重要的部分在于刀具的选用和布置,刀具是否适用于工程地质条件将直接影响盾构机的掘进效果。本文从盾构机刀具类型、刀具配置以及刀具布置需要考虑的各
国家颁布了GB∕T29590-2013《企业现场管理准则》,在全国范围内掀起了开展现场管理活动的热潮。船舶企业现场是一个非常复杂的作业现场,生产工种繁多,管理流程复杂,危险程度
<正>2015年7月5日,在债务救助问题多次谈判无果后,希腊就是否接受债权人改革条件举行全民公投,结果61.3%的民众表示反对。这样的结果既显示了希腊人民对经济状况的不满,也表
从上世纪80年代开始,家用纺织品受国际因素的影响,行业高速发展。国内很多家纺行业通过各种渠道,在部分城市形成了产业群。目前,家纺行业的主要渠道有:连锁加盟专卖店、大中
我们每个人都做梦,对千奇百怪的梦,许多人充满了好奇。对于心理学探索者来说,揭示梦境背后的心理意义,能够更好地了解人的潜意识,指导现实生活。作为一个心理辅导老师,如果能
<正>阅读其实是基于文本和读者已有的知识和经验建构新意义的过程(王蔷,2016)。英语学科阅读素养主要包括四方面:语言能力、学习能力、思维品质和文化品格,其中思维品质是指