基于机器学习的农户信用评估研究

来源 :安徽财经大学 | 被引量 : 0次 | 上传用户:boji13
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
“三农”问题一直以来都是党中央和国家高度重视的民生问题,近年来,在全面建成小康社会的政策指引下,国家精准扶贫的力度不断加大,贫困农户的生活也切实发生了变化,基本生活保障已经落实到位。然而,“三农”问题的关键还是农业问题,对于广大农户而言,发展农业经济依旧是脱贫致富的主要道路,而资金则是发展农业经济最为核心的要素,农户的资金来源相对有限,通过银行等金融信贷机构贷款仍然是他们获得资金的主要渠道,而农村金融体系相对比较薄弱,随之引发了“双难”问题,即农村金融信贷机构“难贷款”以及农户“贷款难”。这背后的主要原因是农户和金融信贷机构之间信息不对称,农村信用评估体系不完善,农村金融信贷机构不能准确客观对农户的信用作出评估,农户贷款违约率较高。因此,在这种背景下,探索一套适用于我国农户的科学统一的信用评估体系对于解决“双难”问题从而解决“三农”问题是十分有意义的。具体地,本文首先阐述农户信用评估的研究背景,并分别从现实和理论的角度说明进行农户信用评估研究的意义,接着对信用评估理论、农户信用、农户信用评估方法以及农户信用评估指标选取的相关文献进行梳理和阐述,为进一步研究夯实基础。其次,对机器学习相关理论进行系统阐述。其中包括机器学习的概念、发展历程,本文所使用的机器学习算法的理论基础、机器学习中所使用的调参方法以及机器学习算法中所涉及的评估指标。再次,对农户、农户信用及农户信用风险的概念进行了说明,并根据已有文献的研究成果,从农户家庭基本特征、农户家庭偿债能力、农户家庭担保情况以及农户家庭稳定性四个维度出发构建农户信用评估体系,并根据相应的准则筛选出符合本文研究要求的评估指标共计18个。接着,以中国家庭金融调查与研究中心的农户调研数据为基础,整理得出本文研究所需要的农户大数据集,继而对数据集进行预处理(包括缺失值处理、异常值处理、一致性处理)和探索性分析工作(包括目标变量和特征变量)。然后,进行建模前的准备工作(包括构造衍生特征变量、数据集标准化和离散化处理、One-Hot读热编码处理以及划分训练集与测试集),进而构建基于机器学习的农户信用评估模型,本文主要使用了Logistic回归、决策树、Random forest以及GBDT四种机器学习算法模型,具体是通过混淆矩阵对农户的信用状况进行二分类预测,与此同时通过正则化、交叉验证和网格搜索等调参方法对各模型进行优化调整,并利用评估指标AUC、KS、PSI、recall、precision以及F1对各模型进行综合对比分析。最后,引入基于Logistic回归的农户信用评分卡对农户信用进行量化打分并划分信用等级。实证研究表明:(1)各模型经过参数调整后评估效果均有显著提升,表明正则化、交叉验证和网格搜索等调参方法对模型的改进有积极意义值得推广。(2)机器学习模型在评估指标AUC、KS、PSI以及F1得分上均表现出不错的效果且差距不大,说明各机器学习模型在农户信用评估上具有很好的预测能力,相对于复杂、耗时、低效的传统专家经验判断方法具备一定的应用前景。就综合效果而言,集成分类算法模型表现相对占优而决策树模型相对较差。其中Logistic回归模型在recall上表现最好,集成分类算法模型在precision上表现更好。(3)农户信用从低到高被划分为四个等级:D级农户违约风险高应拒绝其贷款,C级农户违约风险较高应对其谨慎贷款,B级农户违约风险一般应进一步审查信用状况再决定是否发放贷款,A级农户违约风险极低可以发放贷款。最后,本文在研究基础上提出研究展望并对农户、金融信贷机构以及政府部门提出如下相关政策建议:第一,农户要加强自身信用意识;第二,金融信贷机构要构建统一信用评估标准,并在农户信用评估上引进机器学习新型评估方法;第三,政府部门要打造农户信用信息共享和传导机制;第四,政府部门还需联合金融信贷机构创立农户信用奖惩协同机制,努力推进信用大环境建设。
其他文献
产业集聚是一种行之有效的空间组织形式,集聚区内能够形成竞争优势,推动创新发展,从而促进经济增长。近年来,高技术产业快速发展,已逐步成为各国间经济实力对比的核心因素。相较于传统产业集聚,高技术产业集聚因较快的知识溢出速度,而产生更为明显的竞争优势、创新效应及外部效应来促进经济增长。北京市是最早发展高技术产业的城市,作为全国高技术产业发展的“领头羊”,北京市高技术产业产值占北京市工业总产值的比率快速上
残差神经网络(ResNet)是目前应用较多的一种深度神经网络模型。相比于广泛应用的卷积神经网络,残差网络解决了随着网络深度的增加而随之出现的网络退化和梯度消失问题,因而受到广泛应用。本文在残差神经网络的基础上进行了改进,目的是通过深化网络结构来达到提高精度的目的。本文的主要工作是,在残差神经网络中加入了卷积神经网络的基本结构,在保证了残差网络输入数据原有特征值的情况下,加入了一批由卷积神经网络产生
目的:调查单中心维持性血液透析(MHD)患者生活质量现状,观察八段锦功法对MHD患者生活质量的影响。方法:第一阶段:选取江苏省中医院血液净化中心MHD患者共60例为研究对象,搜集
建设工程造价审核是建设工程投资控制中重要的组成部分。为了使建设工程造价管理及质量规范化、科学化,就需要重视造价审核中的质量控制工作,以降低工程项目成本。本文主要是
近年来我国经济发展进入新常态,智力资本、人力资源、营销渠道等逐渐成为企业的核心竞争力,轻资产运营模式得到越来越多企业的青睐,这种商业模式具有明显的财务优点,但也隐藏着特有的财务风险。传媒行业是一个具有典型轻资产特征的产业,随着国内消费水平的提高,正逐渐成为我国新的经济发展引擎。轻资产财务风险研究在我国起步较晚,结合轻资产特点,对传媒行业的财务风险进行研究,具有重要的理论与现实意义。本文采用文献研究