基于机器学习的用户贷款风险预测模型研究

来源 :海南大学 | 被引量 : 1次 | 上传用户:nizhongyu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着借贷平台的兴起以及互联网金融的发展,金融行业的用户贷款风险预测也变得更加的重要,传统的金融行业面对数据量的剧增已经审核成本的提升,已经难以进行高效的数据处理。随着计算机技术的发展,在大数据时代机器学习技术的出现,给我们提供了更多的可能性和便利性,面对大量的借贷用户,网络借贷平台也出现了一系列的风险管理问题,导致平台方和用户方的合法权益受到损害,因此相关部门也出台了政策来进行约束管理来促进贷款平台的发展。对于借贷平台,自身也该采用技术手段来进行风险规避,故而采用机器学习技术建立预测模型提取出有效信息,进行风险预测来有效的控制风险并最大限度的减少损失。本文针对用户贷款风险预测问题,探讨机器学习方法在互联网金融领域的应用情况。本文研究是在基于以往研究者的基础上采用某互联网贷款平台提供的经过脱敏处理后的用户贷款相关的数据集,本文的主要研究内容如下:(1)首先对用户数据进行了数据预处理的操作,对于与用户的相关个人基本信息和用户相应的贷款相关的信息数据进行了探索性分析,对数据集进行了数据预处理和清洗,包括对缺失值以及重复值进行处理,并对时间戳进行了补齐;(2)在特征工程处理方面,重点对数据集的特征进行处理,采用特征交叉组合方法进行特征衍生、对部分特征进行one-hot编码、部分变量的归一化处理等,特征选择采用Random Forest算法按照特征重要性排序,选取重要性排名前15的特征,并完成最终输入模型的变量汇总;(3)构建模型以及模型的优化,将训练集分为测试集和验证集,把经过特征选择出来的新数据集作为XGBoost模型的输入,经过参数调优和交叉验证得到最终模型的最优参数,并在测试集上进行模型的应用。对融合后模型的性能进行评估,并将改进的预测模型与逻辑回归模型和GBDT模型的预测效果进行对比,得到新模型的预测效果明显是优于其他两个预测模型。通过实验本文提出了一种基于随机森林的XGBoost模型用于用户贷款的风险预测,该模型有较好的预测准确性,最终根据该模型得到的结果结合带大数据时代的背景,对网络借贷平台识别高风险的借贷用户提出一些具有参考性的建议。
其他文献
目的以某新型军用导弹包装箱为研究对象,对其动力学特性进行研究。方法建立包装箱整体结构模型,利用有限元法对其固有特性进行分析。考虑弹体在运输过程中受到随机激励的影响
企业家报酬的决定有着不同的标准,按照劳动经济学的观点,企业家市场薪酬决定了企业家报酬.在报酬实践中,市场工资率的概念也是牢固确立的.基于这种理论,应当实行企业家报酬的
李凖对河流的叙事集中凝聚为受难黄河书写。荣获第二届茅盾文学奖的长篇小说《黄河东流去》是李凖依托黄河地理空间进行河流叙事的代表作品。文本从真实的黄河受难史史料出发
通过比较分析现在流行的企业资本结构理论中的权衡理论和新优序理论的缺陷,认为资本结构的契约理论是一种比较适合于解释中小企业融资行为的理论.同时通过对中小企业的特征及
党的十八大以来,以习近平同志为核心的党中央高度重视社会主义生态文明建设,坚持把生态文明建设作为统筹推进“五位一体”总体布局的重要内容,坚持节约资源和保护环境的基本
《中华人民共和国物权法》第一百九十一条第二款规定抵押期间,抵押人未经抵押权人同意,不得转让抵押财产,但受让人代为清偿债务消灭抵押权的除外。那么如果发生了抵押人未经
建筑管理中最重要的还是项目管理,包括生产施工过程中的安全、质量、进度、维护、成本等多方面的因素。研究项目管理的重要性,有益于调节工程项目与施工的关系,优化方方面面的影
目的:探讨高迁移率族蛋白1(HMGB1)、Toll样受体4(TLR4)在重症急性胰腺炎(SAP)大鼠胰腺组织及HMGB1在SAP大鼠肝脏组织中的表达以及乌司他丁的干预效应。方法:将54只SD大鼠随机
主题背景下的幼儿园区域性活动,即通常情况下以主题为背景,以划分好的区域为主要场合,以教师为主导,根据主题目标制造与主题相符合的区域,使幼儿凭借自己的能力和意愿,以实践
鸡球虫病病原源于艾美耳属中的多种球虫,鸡球虫发育和生长主要是经历了三种阶段,包括无性阶段、有性生殖阶段和孢子生殖阶段作为鸡群中常见的一种寄生虫病,该类病一旦发布就