基于随机森林的信贷风险实证研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:liongliong495
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于高新科技的蓬勃发展,当今世界成为了以信息化、智能化、网络化为核心特征和竞争力的移动互联网社会,P2P这一全新的网络借贷模式应运而生。近年来,我国经济发展迅速,人均收入明显提高,这就导致国人从以前的不敢对外借贷逐渐转变为善于使用社会资源来进行个人的资金融通。因此,具有高回报和借款便捷等优势的网络信贷平台在当下变得显赫一时,各种消费贷款包括周转贷、购房买车贷、出国助学贷、创业服务贷等形式接连得到发展。但是,由于我国网络贷款发展时间不长、个人信用数据信息尚不完备、风险分析技术落后以及相关法规法律还不健全的问题,使得个人信用风险评价体系还不能满足各信贷机构的需求,投资者面临着严峻的资金安全问题。如何建立一种优良的网贷风险控制模型,是目前我国信贷行业迫在眉睫的大事。本学位论文借助机器学习中一个常见的分类算法——随机森林(Random Forest,RF)研究信用风险评价问题。该算法综合Bagging方法和决策树(Decision Tree)的共同优点,能够增强分类的泛化性能,且有着较高的稳定性,不容易产生过度拟合,与其他单一的分类算法相比较,更加适合解决信用风险评价问题。同时,在RF算法的基础上引入了加权随机森林模型(Weighted Random Forest,WRF),考虑了P2P行业中错误预测逾期分类损失较大的真实情况,提高了模型的实际使用价值。论文首先对原始数据进行了预处理,其主要工作为剔除离群点,补齐缺失值,舍去无效特征,数据规范化及变量相关性检验。然后,结合五重交叉验证和RF算法重新选取特征变量。实证阶段,基于拍拍贷已开放的数据集建立了随机森林信用风险评估模型,并与SVM、ANN、KNN和Logistic回归等传统单一评估方法进行对比。实证结果表明:随机森林系列模型总体分类效果最好,对比其他分类模型,RF算法更加适合建立P2P网贷风险评估模型。另外,论文利用SMOTE过采样方法解决了实例数据非平衡分布问题,提升了少数类样本的预测精确度,进一步增强了最终模型结果的实用性。
其他文献
<正>~~
期刊
【正】 封建经济的基础是农业。在封建生产方式下,作为主要生产资料的土地,是自耕农赖以存在的主要条件。一旦自耕农民丧失土地,他们便只能逃亡他乡,或是沦为豪强的依附者,或
为提高叶尔羌高原鳅人工饲养的成活率,对其年龄、摄食、繁殖习性、适应温度和窒息点及应激性进行了试验研究。结果表明,叶尔羌高原鳅喜栖黑暗,适夜间活动觅食;生长缓慢;生存的最低
国民的文明素质,直接反映并决定着国家的道德水准和社会的文明程度。提升国民文明素质,有利于改善社会风气、维护国家形象、增强国家软实力、构建社会主义和谐社会。当前,国民的
二胡协奏曲《花木兰》的创作并没有完全采用河南本土音乐风格来统一创作,只是在作品的开始部分、极少的展开部分、再现部分和尾声部分突出河南音乐风格,要把庞大的展开部风格统
利用衍生化原理,建立了用来测定黄瓜、番茄及土壤中福美双的高效液相色谱残留检测方法。结果表明,在黄瓜、番茄和土壤中福美双的添加浓度在0.05~2.0mg·kg-1范围内,平均回收率
证人出庭率低的问题,一直是困扰我国司法的一大顽疾。本文以递进结构对强制证人出庭作证进行了正当性论证,并对相应的制度设计提出看法,在强调强制证人出庭作证的同时,对证人
试验用不同剂量的孕马血清促性腺激素(PMSG)和绒毛膜促性腺激素(HCG)组合处理休情期母貉,观察其卵巢的影响。结果表明,与对照组相比,试验各组母貉卵巢重量增加极显著(P〈0.01),且试
《双飞蝴蝶主题变奏曲》是陈培勋先生立足于传统,借鉴西方作曲理论及创作技法,深入发掘我国丰富多彩的民族音乐文化,创作而成的一首极具民族特色与戏剧性高潮的双主题变奏曲。本
目的探讨兰州地区近3年来急性呼吸道感染患儿病毒感染状况.方法采用聚合酶链反应(PCR)技术对256例急性呼吸道感染患儿呼吸道分泌物进行病毒学检测.结果检出病毒阳性者101例,