论文部分内容阅读
【摘要】随着大数据概念的提出,企业和个人越来越重视数据中隐藏的潜在价值。为准确评价P2P网络贷款平台借款人的信誉度,本文利用因子分析方法从22个自变量中浓缩出8个“共同因子”,建立信用评价指标体系,并利用Logistic模型对借款人行为进行预测。这种个人信用评价指标体系的筛选保留了大量的信息量,并利用Logistic模型给出了用户违约概率。
【关键词】P2P网贷 因子分析 评估指标体系 Logistic分析
一、引言
从硅谷到北京,大数据的话题正在被传播。如今,一个大规模生產、分享和应用数据的时代正在开启[1]。众多企业正面临着海量的管理数据,越来越关注如何从海量的数据中挖掘提炼出对企业有效的决策支持信息,提高企业的生存能力和企业的发展速度。某种程度上,数据就是企业最珍贵的财富。而数据财富的转化需要一种能够将大量数据智能化地转化为有价值的信息的技术,以达到为人们提供决策服务的目的。随着计算机技术和统计分析方法的发展,量化分析已经成为各个学科领域中广泛应用的技术方法。根据国际权威高德纳咨询公司的调查分析报告显示,数据挖掘技术将是今后几年全世界范围内重点加大投资研究的十大新兴高科技技术之一,它已经引起了学术界和工商界的重点关注,是当今数据库系统开发、研究和应用领域的一个热点技术[2]。
自2007年国外网络贷款平台模式引入中国以来,国内P2P网络借贷平台如雨后春笋般蓬勃发展。这一模式为很多无法从银行或其他信贷机构获取贷款的支持的个人消费者、微企业主提供了一种新的融资渠道。然而,P2P网贷面临诸多风险:个人信用风险,平台账户资金使用不当引发经营风险,法律风险等。目前我国的公民信用体系还不健全,平台与平台之间又缺乏联系和沟通,各个平台频频出现坏账,借款人不能及时还款,造成了借款人集中违约,借款人信用风险无疑是平台面临的最大风险。如何有效地识别借款者并预测其未来的贷款偿还表现,控制其信用风险,已成为当前亟待解决的问题。
个人信用评估,是指通过使用科学严谨的分析方法,综合考察影响个人及其家庭的内在和外在的主客观环境,并对其履行各种经济承诺的能力进行全面的判断和评估。本文基于某P2P网络借贷平台的个人标的数据,综合运用因子分析法和Logistic回归分析法构建P2P网贷平台个人信用评估模型。从模型的预测结果看,基于Logistic回归分析的个人信用评估模型有较高的精度,并能预判标的数据违约概率,可控制性强。
二、文献回顾
自2005年P2P网络贷款平台首次在英国出现以来,国外理论界也一直致力于对这种新型互联网金融借贷模式的探讨与研究。国外目前对P2P网贷的研究比较成熟,研究成果非常丰富。Lauri Puro[3]等(2010)通过研究P2P借贷平台Prosper.com,提出借款人决策建议模型,帮助借款人量化其战略选择。Robert&Benjamin(2010)通过研究发现,出借人可以通过网络平台获取借款人的个人信誉,设法从中选取出信誉好的借款人进行投资。这种方式可以有效缓解道德风险,虽然要付出的成本较高,但相比传统模式还是比较合适的。Durand[4](1941)首先将判别分析法用于信用评分,正式提出使用数理统计模型辅助消费者授信决策的观念。William Fair & Earl Isaacs(1958)利用判别分析法建立了著名的FICO信用评分系统。Wiginton[5](1980)在信用评分模型中首次尝试使用Logistic回归方法,并与判别分析法进行比较。由于Logistic方法前提假设条件少,并且对变量没有正态性假设的要求,应用广泛,常用来做信用评分模型,延续至今。
我国社会信用体系建设经历了三个阶段:起步阶段、初步发展阶段、加速发展阶段现在已经进入全面推进社会信用体系建设的加速发展阶段。但与美国相比我国的信用体系尚不完善,P2P网络贷款的研究起步也较晚。对P2P网贷的研究一开始停留在对网贷的介绍,营运模式比较等方面。辛宪[6](2009)通过对国外典型P2P网贷平台的运营模式进行研究,将P2P企业运营模式归纳为:非盈利公益型(Kiva)、单纯中介型(Prosper)和复合中介型(Zopa、Lending Club)三类。陈初[7](2010)也对网贷运营模式进行了研究,将运营模式归纳为:综合授信(以企业网上行为参数为基础),“P2P”网络融资模式,网贷企业做银行金融业务的外包服务商,为学生提供贷款。随着信息技术的发展,近年来许多数据挖掘的新方法如神经网络、决策树、遗传算法、专家系统等陆续也被引入信用评分领域中。
三、个人信用风险评估模型两步走
随着科学技术的发展,大数据时代的到来,数据的收集变得越来越容易,收集信息越来越详细,维度也越来越高。尽管大数据给我们提供了更详细的信息,但是维度越高,数据量越大研究所面临的困难也越大。找一种合适的统计方法,在海量数据中筛选出有用的信息,降低数据维度,简化模型,减少时间成本,成为人们关注的焦点。基于此,本文提出个人信用评估模型两步走的基本思路,模型建立前最重要的一步是变量降维。第一步:先对样本数据做因子分析。因子分析是一种多变量化简技术。目的是分解原始变量,从中归纳出潜在的“类别”,相关性较强的指标归为一类,不同类变量的相关性较低。每一类变量代表了一个“共同因子”,即一种内在结构,因子分析就是要寻找该结构。至于如何利用因子分析法降维,下文会详细介绍。第二步:利用机器学习领域的Logistic回归分析将第一步降维后的“共同因子”进行回归分析,建立预测“好”、“坏”借款人的模型[8]。不直接使用Logistic回归分析的原因是:一是样本数据变量较多,数据量大;二是变量之间可能会存在多重共线性。通过第一步的因子分析降维,提高运行效率和模型结果的拟合准确度。
四、实证研究
(一)数据与变量情况 本文数据来源于数多多(DataDuoDuo.com)数据交易平台,购买的数据包包含翼龙贷网站记录的自2013年3月到2015年1月的借款人交易数据,共包含47718个观测,该样本数据存在严重的错登漏登问题,对样本数据初步处理,剩余有效观测个案为25589个,其中11286个为“好”客户,14303个为“坏客户”。样本数据中包含的特征变量44个,可用于建模的变量23个,对变量做以下编码[9],如表1。
(二)变量降维
本文在翼龙贷样本数据上使用spss22.0来进行数值实验。因变量为是否违约,因子分析选入22个自变量,表2记录了因子分析的KMO和巴特利特检验。
从KMO和巴特利特检验结果来看,样本数据中变量之间存在较强的多重共线性,所以样本数据适合做因子分析降维。因子分析根据计算出来的特征根,选取特征根大于1的9个“共同因子”,分别为:Z1(社会特征),Z2(借还次数),Z3(借还期限),Z4(生活特征),Z5(保险),Z6(收入状况),Z7(信用记录),Z8(借款类型),Z9(性别)。spss软件也给出了样本数据的各个“共同因子”得分,保存为9个有预测能力的自变量。
(三)Logistic模型估计
二元Logistic回归是对多元线性回归方法的一种改进,其形式为[12]:
其中,P(y=1|X)为客户违约的概率。利用spss22.0软件做Logistic分析,输入9个“共同因子”,表3记录了Logistic分析参数估计结果。
分析输出结果,有8个自变量的显著性都小于0.05,通过了显著性检验,FAC9_2因子即Z9(性别)共同因子对模型结果无显著影响,可以将其剔除,得Logistic回归方程为:从表4的模型拟合优度检验来看,Cox & Snell R平方和Nagelkerke R平方的值分别为0.302和0.404,说明模型的拟合效果比较好。另外,在用Logistic分析时分类分界值定为0.5,预测结果总的准确率为75.4%,好客户11286个,第一类错误率为22.3%,坏客户14303个,第二类错误率26.4%,从表5可以看出模型的拟合效果已相当理想。
五、结语
随着科技的发展,大数据时代的到来,个人信息收集会越来越容易,P2P网贷平台在进行个人评分模型的构建时,选择指标的难度却越来越大,收集的无关指标和冗余指标还会降低模型的预测效果,实际情况和客观需要都对个人信用风险评分领域的指标处理方法提出了更高的要求。本文利用翼龙贷网站的样本数据,对个人信用评分中的数据降维方法和模型建立方法做了研究。首先将多个变量浓缩为几个具有代表性变量,完成对变量的初步筛选。基于此,本文结合传统的机器学习方法Logistic分析,进行指标的建模。其优点是:可解释性强、分类精度高,简单易操作。
参考文献
[1]Viktor Mayer Schonberger,Kenneth Cukier著.盛杨燕,周涛译.大数据时代[M].浙江:浙江人民出版社,2013:16.
[2]MehmedKantardzic著.闪四清,陈茵,程雁等译.数据挖掘——概念、模型、方法和算法[M].北京:清华大学出版社,2003:1-5.
[3]Lauri Puro Jeffrey E.Teich,Hannele Wallenius,Jyrki Wallenius,Borrower DecisionAid for People-to-People Lending.Decision Support Systems,2010:132-161.
[4]Durand D.Risk Elements in consumer Installment financing.New York:National Bureau of Economic Research,1941:60-72.
[5]Wiginton J C.A note on the comparison of logit and discriminant models ofconsumer credit behaviour.Journal of Financial and Quantitative Analysis,1980,15:757-770.
[6]辛憲.P2P运营模式探微[J].商场现代化,2009,7:19-22.
[7]陈初.对中国“P2P”网络融资的思考[J].人民论坛,2010,9:128-129.
[8]余文建,沈益昌,杜洋.基于Logistic模型的个人信用评分体系研究[J].海南金融,2007,3:82-85.
[9]张成虎,李育林,吴鸣.基于判别分析的个人信用评分模型研究与实证分析[J].大连理工大学学报,2009,30(1):6-10.
[10]黄秋彧,史小康.个人信用风险评分的指标选择研究[J].新疆财经大学学报,2015,(3):5-15.
[11]王会娟,廖理.中国P2P网络借贷平台信用认证机制研究——来自“人人贷”的经验证据[J].中国工业经济,2014,4:136-147.
[12]向晖.个人信用评分组合模型研究与应用[D].湖南:湖南大学,2011.
【关键词】P2P网贷 因子分析 评估指标体系 Logistic分析
一、引言
从硅谷到北京,大数据的话题正在被传播。如今,一个大规模生產、分享和应用数据的时代正在开启[1]。众多企业正面临着海量的管理数据,越来越关注如何从海量的数据中挖掘提炼出对企业有效的决策支持信息,提高企业的生存能力和企业的发展速度。某种程度上,数据就是企业最珍贵的财富。而数据财富的转化需要一种能够将大量数据智能化地转化为有价值的信息的技术,以达到为人们提供决策服务的目的。随着计算机技术和统计分析方法的发展,量化分析已经成为各个学科领域中广泛应用的技术方法。根据国际权威高德纳咨询公司的调查分析报告显示,数据挖掘技术将是今后几年全世界范围内重点加大投资研究的十大新兴高科技技术之一,它已经引起了学术界和工商界的重点关注,是当今数据库系统开发、研究和应用领域的一个热点技术[2]。
自2007年国外网络贷款平台模式引入中国以来,国内P2P网络借贷平台如雨后春笋般蓬勃发展。这一模式为很多无法从银行或其他信贷机构获取贷款的支持的个人消费者、微企业主提供了一种新的融资渠道。然而,P2P网贷面临诸多风险:个人信用风险,平台账户资金使用不当引发经营风险,法律风险等。目前我国的公民信用体系还不健全,平台与平台之间又缺乏联系和沟通,各个平台频频出现坏账,借款人不能及时还款,造成了借款人集中违约,借款人信用风险无疑是平台面临的最大风险。如何有效地识别借款者并预测其未来的贷款偿还表现,控制其信用风险,已成为当前亟待解决的问题。
个人信用评估,是指通过使用科学严谨的分析方法,综合考察影响个人及其家庭的内在和外在的主客观环境,并对其履行各种经济承诺的能力进行全面的判断和评估。本文基于某P2P网络借贷平台的个人标的数据,综合运用因子分析法和Logistic回归分析法构建P2P网贷平台个人信用评估模型。从模型的预测结果看,基于Logistic回归分析的个人信用评估模型有较高的精度,并能预判标的数据违约概率,可控制性强。
二、文献回顾
自2005年P2P网络贷款平台首次在英国出现以来,国外理论界也一直致力于对这种新型互联网金融借贷模式的探讨与研究。国外目前对P2P网贷的研究比较成熟,研究成果非常丰富。Lauri Puro[3]等(2010)通过研究P2P借贷平台Prosper.com,提出借款人决策建议模型,帮助借款人量化其战略选择。Robert&Benjamin(2010)通过研究发现,出借人可以通过网络平台获取借款人的个人信誉,设法从中选取出信誉好的借款人进行投资。这种方式可以有效缓解道德风险,虽然要付出的成本较高,但相比传统模式还是比较合适的。Durand[4](1941)首先将判别分析法用于信用评分,正式提出使用数理统计模型辅助消费者授信决策的观念。William Fair & Earl Isaacs(1958)利用判别分析法建立了著名的FICO信用评分系统。Wiginton[5](1980)在信用评分模型中首次尝试使用Logistic回归方法,并与判别分析法进行比较。由于Logistic方法前提假设条件少,并且对变量没有正态性假设的要求,应用广泛,常用来做信用评分模型,延续至今。
我国社会信用体系建设经历了三个阶段:起步阶段、初步发展阶段、加速发展阶段现在已经进入全面推进社会信用体系建设的加速发展阶段。但与美国相比我国的信用体系尚不完善,P2P网络贷款的研究起步也较晚。对P2P网贷的研究一开始停留在对网贷的介绍,营运模式比较等方面。辛宪[6](2009)通过对国外典型P2P网贷平台的运营模式进行研究,将P2P企业运营模式归纳为:非盈利公益型(Kiva)、单纯中介型(Prosper)和复合中介型(Zopa、Lending Club)三类。陈初[7](2010)也对网贷运营模式进行了研究,将运营模式归纳为:综合授信(以企业网上行为参数为基础),“P2P”网络融资模式,网贷企业做银行金融业务的外包服务商,为学生提供贷款。随着信息技术的发展,近年来许多数据挖掘的新方法如神经网络、决策树、遗传算法、专家系统等陆续也被引入信用评分领域中。
三、个人信用风险评估模型两步走
随着科学技术的发展,大数据时代的到来,数据的收集变得越来越容易,收集信息越来越详细,维度也越来越高。尽管大数据给我们提供了更详细的信息,但是维度越高,数据量越大研究所面临的困难也越大。找一种合适的统计方法,在海量数据中筛选出有用的信息,降低数据维度,简化模型,减少时间成本,成为人们关注的焦点。基于此,本文提出个人信用评估模型两步走的基本思路,模型建立前最重要的一步是变量降维。第一步:先对样本数据做因子分析。因子分析是一种多变量化简技术。目的是分解原始变量,从中归纳出潜在的“类别”,相关性较强的指标归为一类,不同类变量的相关性较低。每一类变量代表了一个“共同因子”,即一种内在结构,因子分析就是要寻找该结构。至于如何利用因子分析法降维,下文会详细介绍。第二步:利用机器学习领域的Logistic回归分析将第一步降维后的“共同因子”进行回归分析,建立预测“好”、“坏”借款人的模型[8]。不直接使用Logistic回归分析的原因是:一是样本数据变量较多,数据量大;二是变量之间可能会存在多重共线性。通过第一步的因子分析降维,提高运行效率和模型结果的拟合准确度。
四、实证研究
(一)数据与变量情况 本文数据来源于数多多(DataDuoDuo.com)数据交易平台,购买的数据包包含翼龙贷网站记录的自2013年3月到2015年1月的借款人交易数据,共包含47718个观测,该样本数据存在严重的错登漏登问题,对样本数据初步处理,剩余有效观测个案为25589个,其中11286个为“好”客户,14303个为“坏客户”。样本数据中包含的特征变量44个,可用于建模的变量23个,对变量做以下编码[9],如表1。
(二)变量降维
本文在翼龙贷样本数据上使用spss22.0来进行数值实验。因变量为是否违约,因子分析选入22个自变量,表2记录了因子分析的KMO和巴特利特检验。
从KMO和巴特利特检验结果来看,样本数据中变量之间存在较强的多重共线性,所以样本数据适合做因子分析降维。因子分析根据计算出来的特征根,选取特征根大于1的9个“共同因子”,分别为:Z1(社会特征),Z2(借还次数),Z3(借还期限),Z4(生活特征),Z5(保险),Z6(收入状况),Z7(信用记录),Z8(借款类型),Z9(性别)。spss软件也给出了样本数据的各个“共同因子”得分,保存为9个有预测能力的自变量。
(三)Logistic模型估计
二元Logistic回归是对多元线性回归方法的一种改进,其形式为[12]:
其中,P(y=1|X)为客户违约的概率。利用spss22.0软件做Logistic分析,输入9个“共同因子”,表3记录了Logistic分析参数估计结果。
分析输出结果,有8个自变量的显著性都小于0.05,通过了显著性检验,FAC9_2因子即Z9(性别)共同因子对模型结果无显著影响,可以将其剔除,得Logistic回归方程为:
五、结语
随着科技的发展,大数据时代的到来,个人信息收集会越来越容易,P2P网贷平台在进行个人评分模型的构建时,选择指标的难度却越来越大,收集的无关指标和冗余指标还会降低模型的预测效果,实际情况和客观需要都对个人信用风险评分领域的指标处理方法提出了更高的要求。本文利用翼龙贷网站的样本数据,对个人信用评分中的数据降维方法和模型建立方法做了研究。首先将多个变量浓缩为几个具有代表性变量,完成对变量的初步筛选。基于此,本文结合传统的机器学习方法Logistic分析,进行指标的建模。其优点是:可解释性强、分类精度高,简单易操作。
参考文献
[1]Viktor Mayer Schonberger,Kenneth Cukier著.盛杨燕,周涛译.大数据时代[M].浙江:浙江人民出版社,2013:16.
[2]MehmedKantardzic著.闪四清,陈茵,程雁等译.数据挖掘——概念、模型、方法和算法[M].北京:清华大学出版社,2003:1-5.
[3]Lauri Puro Jeffrey E.Teich,Hannele Wallenius,Jyrki Wallenius,Borrower DecisionAid for People-to-People Lending.Decision Support Systems,2010:132-161.
[4]Durand D.Risk Elements in consumer Installment financing.New York:National Bureau of Economic Research,1941:60-72.
[5]Wiginton J C.A note on the comparison of logit and discriminant models ofconsumer credit behaviour.Journal of Financial and Quantitative Analysis,1980,15:757-770.
[6]辛憲.P2P运营模式探微[J].商场现代化,2009,7:19-22.
[7]陈初.对中国“P2P”网络融资的思考[J].人民论坛,2010,9:128-129.
[8]余文建,沈益昌,杜洋.基于Logistic模型的个人信用评分体系研究[J].海南金融,2007,3:82-85.
[9]张成虎,李育林,吴鸣.基于判别分析的个人信用评分模型研究与实证分析[J].大连理工大学学报,2009,30(1):6-10.
[10]黄秋彧,史小康.个人信用风险评分的指标选择研究[J].新疆财经大学学报,2015,(3):5-15.
[11]王会娟,廖理.中国P2P网络借贷平台信用认证机制研究——来自“人人贷”的经验证据[J].中国工业经济,2014,4:136-147.
[12]向晖.个人信用评分组合模型研究与应用[D].湖南:湖南大学,2011.