论文部分内容阅读
近年来,我国P2P网贷行业呈爆发性增长态势。截至2018年12月,我国P2P网贷行业的累计成交额达到80287.42亿元。截至2019年4月,我国累计成立的P2P网贷平台共6600余家,当月涉及的投资人数达215.09万人。P2P网络借贷已成为我国财富管理市场中不可忽视的重要组成部分。然而与此同时,平台自融假融、资金提现困难、平台携款跑路等乱象也层出不穷,大量平台纷纷停业、转型,仍在运营的平台数量日益减少。这不仅对投资者的个人利益造成严重威胁,也阻碍了我国“互联网+金融”的健康发展。因此,如何对P2P网贷平台的信用风险进行识别成为了投资者关注的重点问题。然而,对于投资者个人而言,获取大量P2P网贷平台的详细信息较为困难,这不仅需要投资者掌握一定的网络数据采集技术,而且要求其能够对采集到的数据进行预处理,这就导致投资者个体对平台信用风险的识别能力十分有限。基于上述现状,笔者将研究主题确定为P2P网贷平台的风险识别,即基于能够获取到的信息,研究采用哪种模型能够更好地揭示出与平台风险相关的属性X和平台信用状态Y之间的潜在关联规律,从而对当前运营平台的信用状态做出预测,辅助投资者进行理性投资,尽可能规避高危平台,减少亏损。笔者从国泰安数据库下载了部分平台近几年的运营数据。对于网贷之家、网贷天眼这两个采用了AJAX技术的P2P网贷行业咨询网站,笔者通过配合使用Selenium Server与rvest包中的有关函数,实现这类动态网页的数据爬取。在爬虫结束后笔者发现部分平台的数据仍存在缺失,最后通过人工方式查询了大量P2P网贷平台官网的信息,收集所需数据。数据收集完毕后,笔者通过构建大量的正则表达式对字符串进行处理,纠正明显错误,删除无效属性,整合不同来源的数据,删除重复信息,提供数据一致性。由于数据集中仍存在缺失值,笔者采用missForest对数据集中的缺失值进行填充。最终得到的数据集包含6522条平台数据,共82个属性,涵盖平台的基本信息、运营状况、投资者印象、信用状态这四个方面的内容。通过分析平台的运营状态与信用状态之间的关系,笔者将各类运营状态的平台分别标记为“可信”平台、“不可信”平台、“未知”平台。最终,共有84家“可信”平台,2859家“不可信”平台,3579家“未知”平台。之后,笔者使用随机森林进行特征选择,并统一对所有特征进行最大最小归一化处理。由于数据集的不平衡现象较为严重,同时含有大量未标记数据,笔者根据研究问题的特点将可信平台查全率、不可信平台查全率、代价敏感错误率作为评估指标,通过设计对比实验,一方面解决样本不平衡现象带来的困扰,另一方面在有标记部分相同的数据集上分别训练有监督学习模型和半监督学习模型,并计算各类模型的评估指标,最终选择表现最佳的模型对运营平台的信用状态做出预测。笔者训练了CART决策树、Bagging、随机森林、BP神经网络、朴素贝叶斯、SVM、kNN这7种有监督学习模型;在半监督学习方面,训练了TSVM、图半监督学习模型以及基于上述7种有监督学习模型两两组合而成的多种协同训练模型。训练过程中使用网格搜索确定各类模型的最优参数组合,其中TSVM与SVM的参数设置一致,协同训练中基学习器的参数使用默认参数。实验结果表明:笔者使用的任一模型,都不能同时获得最高的可信平台查全率和最高的不可信平台查全率;在相同参数组合下,TSVM的表现往往优于SVM;表现最佳的有监督学习模型是kNN(k=7),记为模型1,表现最佳的半监督学习模型是协同训练模型(SVM与kNN协同),记为模型2;尽管模型1能够获得最高的可信平台查全率(94.77%),但其代价敏感错误率相比模型2提升了314.93%,模型2充分利用了大量未标记数据,获得了最高的不可信平台查全率(96.89%)和最低的代价敏感错误率。因此,半监督学习模型能够有效应用于P2P网贷平台的风险识别领域。