论文部分内容阅读
“三农”问题一直以来都是党中央和国家高度重视的民生问题,近年来,在全面建成小康社会的政策指引下,国家精准扶贫的力度不断加大,贫困农户的生活也切实发生了变化,基本生活保障已经落实到位。然而,“三农”问题的关键还是农业问题,对于广大农户而言,发展农业经济依旧是脱贫致富的主要道路,而资金则是发展农业经济最为核心的要素,农户的资金来源相对有限,通过银行等金融信贷机构贷款仍然是他们获得资金的主要渠道,而农村金融体系相对比较薄弱,随之引发了“双难”问题,即农村金融信贷机构“难贷款”以及农户“贷款难”。这背后的主要原因是农户和金融信贷机构之间信息不对称,农村信用评估体系不完善,农村金融信贷机构不能准确客观对农户的信用作出评估,农户贷款违约率较高。因此,在这种背景下,探索一套适用于我国农户的科学统一的信用评估体系对于解决“双难”问题从而解决“三农”问题是十分有意义的。具体地,本文首先阐述农户信用评估的研究背景,并分别从现实和理论的角度说明进行农户信用评估研究的意义,接着对信用评估理论、农户信用、农户信用评估方法以及农户信用评估指标选取的相关文献进行梳理和阐述,为进一步研究夯实基础。其次,对机器学习相关理论进行系统阐述。其中包括机器学习的概念、发展历程,本文所使用的机器学习算法的理论基础、机器学习中所使用的调参方法以及机器学习算法中所涉及的评估指标。再次,对农户、农户信用及农户信用风险的概念进行了说明,并根据已有文献的研究成果,从农户家庭基本特征、农户家庭偿债能力、农户家庭担保情况以及农户家庭稳定性四个维度出发构建农户信用评估体系,并根据相应的准则筛选出符合本文研究要求的评估指标共计18个。接着,以中国家庭金融调查与研究中心的农户调研数据为基础,整理得出本文研究所需要的农户大数据集,继而对数据集进行预处理(包括缺失值处理、异常值处理、一致性处理)和探索性分析工作(包括目标变量和特征变量)。然后,进行建模前的准备工作(包括构造衍生特征变量、数据集标准化和离散化处理、One-Hot读热编码处理以及划分训练集与测试集),进而构建基于机器学习的农户信用评估模型,本文主要使用了Logistic回归、决策树、Random forest以及GBDT四种机器学习算法模型,具体是通过混淆矩阵对农户的信用状况进行二分类预测,与此同时通过正则化、交叉验证和网格搜索等调参方法对各模型进行优化调整,并利用评估指标AUC、KS、PSI、recall、precision以及F1对各模型进行综合对比分析。最后,引入基于Logistic回归的农户信用评分卡对农户信用进行量化打分并划分信用等级。实证研究表明:(1)各模型经过参数调整后评估效果均有显著提升,表明正则化、交叉验证和网格搜索等调参方法对模型的改进有积极意义值得推广。(2)机器学习模型在评估指标AUC、KS、PSI以及F1得分上均表现出不错的效果且差距不大,说明各机器学习模型在农户信用评估上具有很好的预测能力,相对于复杂、耗时、低效的传统专家经验判断方法具备一定的应用前景。就综合效果而言,集成分类算法模型表现相对占优而决策树模型相对较差。其中Logistic回归模型在recall上表现最好,集成分类算法模型在precision上表现更好。(3)农户信用从低到高被划分为四个等级:D级农户违约风险高应拒绝其贷款,C级农户违约风险较高应对其谨慎贷款,B级农户违约风险一般应进一步审查信用状况再决定是否发放贷款,A级农户违约风险极低可以发放贷款。最后,本文在研究基础上提出研究展望并对农户、金融信贷机构以及政府部门提出如下相关政策建议:第一,农户要加强自身信用意识;第二,金融信贷机构要构建统一信用评估标准,并在农户信用评估上引进机器学习新型评估方法;第三,政府部门要打造农户信用信息共享和传导机制;第四,政府部门还需联合金融信贷机构创立农户信用奖惩协同机制,努力推进信用大环境建设。