基于多数据集融合的个人信用评估分析

来源 :中南财经政法大学 | 被引量 : 0次 | 上传用户:nbu_james
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年,个人征信体系不断完善,导致了在个人信用评估中,面临数据来源众多,数据结构复杂且量级大等问题。金融行业基于传统征信技术对个人信用评估难以克服当前面临的数据层面难题和评估模型层面技术的瓶颈。大数据的发展提高了风险控制在企业运作中的地位,在数据来源不同的情况下,个人信用的评估分析有助于银行降低不良贷款率等,成为银行精细化运营中风险评估的得力助手。本文针对现阶段个人信用评估中的多个训练集如何融合及传统评估技术是否适用这两个问题,通过分析传统信用评估模型的优缺点,提出了利用GBDT/XGBoost+LR模型、Stacking算法及TrAdaBoost算法进行信用评估,基于科赛网的前海征信企业赛题数据进行了实证分析,并将试验结果同传统的LR模型进行了对比。首先对数据存在的缺失值、异常值、和偏斜变量等问题进行预处理,采用SMOTE算法均衡数据集的正负样本,采用皮尔森相关系数和随机森林算法对数据进行降维,根据变量重要性排名筛选出了对中等额度信用贷款业务A、小额短期贷款业务B影响最大的前45个特征。利用Python3分别实现了LR模型、GBDT+LR模型、XGBoost+LR模型以及Stacking算法和TrAdaBoost算法并对模型的分类效果进行比较分析。通过五折交叉验证和网格搜索寻找最优分类器的参数设置,采用精确率、召回率、F1值作为辅助评价指标,AUC值作为主要评价指标。研究结果显示:相较于传统的LR模型,Stacking算法表现最好,计算速度快,模型的F1值和AUC值分别高达0.89和0.87。其次是GBDT+LR模型和XGBoost+LR模型,其AUC值分别为0.84和0.82,在特征重要性上,GBDT+LR模型偏好于客户个人信息特征,而XGBoost+LR模型则更倾向于客户历史购买产品情况。几种模型均输出一些共同的且贡献度较高的特征,如UserInfo40、UserInfo50、UserInfo254和ProductInfo31。TrAdaBoost算法学习的分类器与另外三种方法相比表现稍差,F1值为0.75,AUC值为0.74,同时TrAdaBoost算法耗时最长。最后本文选择表现最佳的Stacking算法对给定的测试样本进行预测,结合模型训练中得到的各变量相对重要性得分进行重点业务分析。针对多个数据集的信用评估模型的创新和提高,对于企业规避风险具有重要的实际意义,值得不断探索和研究。
其他文献
知识经济时代改变了企业主要以物质资本创造价值的模式。智力资本作为一种稀缺的、不可替代的且具有巨大价值创造潜力的战略性生产要素,正逐渐取代物质资本,成为企业具有持续竞争力的一种关键资源和长期价值成长的驱动力。高新技术企业所具有的高创新性、高成长性和知识密集性等特点,决定了其生产经营过程必须以高科技人才和创新成果等智力资源为依托,因此可以说,智力资本对高新技术企业成长与发展的重要性更加突出。企业价值创
随着科技的发展和社会的进步,各类疫苗以及预防接种工作在维护国家公共卫生以及公民健康领域创造了举世瞩目的成就。考虑到当前科学技术发展的局限性,人类尚不能完全掌握关于疫苗的全部知识,所以在预防接种的过程中仍要考虑到接种疫苗可能给受种者带来的潜在风险,这其中就包括出现预防接种异常反应的风险。出于保护社会公共利益和自身健康权益的考虑,公民又需要接种疫苗,所以一旦出现预防接种异常反应,这对于受种者及其家人而
社会福利制度是一个现代化的词,其内涵不仅包括对生活困难者进行帮助,还有政府和社会为了提高公民的物质生活水平所采取的一系列举措。清代是一个特殊的时代,铸就了封建社会最后一个盛世。本文以清代《户部则例》为主要研究载体,对其条款进行梳理和归纳,以期探究清代社会福利制度的主体框架及其演化特征,并从进步意义及局限性两方面对其进行评述。现可以考证的《户部则例》一部是乾隆四十六年,一部是同治十三年。通过比较可以
当前,环渤海经济圈金融业发展迅速,金融对经济增长的作用日益明显,但是,环渤海经济圈内部经济发展以及金融业发展差异显著,如何充分发挥环渤海经济圈金融集聚对区域经济增长的促进作用,保证未来经济的持续健康发展,是环渤海经济圈亟待解决的关键性战略问题。因此,本文围绕这个背景,选取环渤海经济圈2003-2018年44个城市的空间面板数据从地理空间的角度研究环渤海经济圈金融集聚对区域经济增长的空间溢出效应。首
众所周知,国有企业在我国国民经济当中处在极其重要的地位,其生产经营状况与我国经济的发展息息相关。但不可否认的是,近年来,受全球大环境的影响,我国的经济增长速度明显放缓,当前“粗放型”的模式也阻碍了经济的发展,国有企业作为国民经济发展的中流砥柱,面临经济下行压力,需要寻求新的经济增长方式,而国有企业本身在经营过程中也存在一些问题,包括但不限于缺乏现代管理经验、缺乏竞争、某些岗位过于冗余等,导致其经营
改革开放以来,我国经济建设取得了丰硕成果,随之而来的环境污染也不容忽视。十九大报告明确提出“建设生态文明是中华民族永续发展的千年大计”、“把我国建成富强民主文明和谐美丽的社会主义现代化强国”,“美丽”的生态环境建设越来越成为社会进步和企业发展的重要命题。企业作为国民经济发展的中坚力量,也同时承担着保护生态环境、建设生态文明的社会责任。企业环境绩效逐渐成为国内外学者研究的热点,包括环境绩效评价指标体
实现乡村振兴战略的保障是投融资渠道的不断拓宽,争取将更多的真金白银投到乡村振兴上,大量的资金投入并实现有效利用才能更好的实现乡村建设,同时也不能套用其他行业的模式,因此在经济发展新常态下,迫切需要创新投融资机制。在乡村振兴战略的背景下,结合投融资机制的运行原理以及现阶段我国农村经济发展现状,从财政引导、信贷支持以及社会资本参与机制等方面着手,对乡村振兴背景下的投融资运行构建机制框架,促进财政资金、
在综合国力竞争日益激烈的今天,人才竞争力作为人才数量、结构、效能等因素的有机综合力量,逐渐成为地区博弈的关键,是有效推动经济社会与科技发展,全面提升区域综合实力的有力抓手。本文在人才竞争力理论、经济增长理论、人力资本理论、综合评价理论和计量经济学等相关理论的基础上,以GDP排名前五的山东省、广东省、江苏省、浙江省和河南省为研究对象,度量了各省人才竞争力水平,从而掌握山东省人才竞争力情况。并从横向和
房地产营销目前普遍使用的理论是4P营销理论,4P营销理论通过四个要素(产品、价格、渠道、促销)把握销售的整个过程。但有别于其他商品营销,中国的房地产营销受到持续的政府宏观调控政策影响,并且这种影响呈现出明显的地域差异,除此之外,不同地域的消费特征和市场情况也存在差异。4P营销理论是在完全市场化的情况下提出的,难以适应中国当前特殊的房地产营销环境,因此研究宏观环境因素影响下的房地产营销理论,对中国的
社交电商是电子商务衍生的一种新模式,借助社交软件的传播途径,通过社交互动的手段来达成商品交易。随着社会化媒体和线上交易整合的不断推进,网购市场中社交电商的比重逐步增加。随着社交购物功能的改善,社媒平台不再仅仅是一个广告渠道,人们现在可以方便快捷地在自己选择的社媒平台上购买商品。社交电商平台中的小红书APP发展势头强劲,成为年轻人中的潮流。小红书APP是一个社交电商平台,也是智能手机APP。目前国内