基于半监督学习的P2P网贷平台风险识别研究

来源 :云南财经大学 | 被引量 : 0次 | 上传用户:wangzi7890
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,我国P2P网贷行业呈爆发性增长态势。截至2018年12月,我国P2P网贷行业的累计成交额达到80287.42亿元。截至2019年4月,我国累计成立的P2P网贷平台共6600余家,当月涉及的投资人数达215.09万人。P2P网络借贷已成为我国财富管理市场中不可忽视的重要组成部分。然而与此同时,平台自融假融、资金提现困难、平台携款跑路等乱象也层出不穷,大量平台纷纷停业、转型,仍在运营的平台数量日益减少。这不仅对投资者的个人利益造成严重威胁,也阻碍了我国“互联网+金融”的健康发展。因此,如何对P2P网贷平台的信用风险进行识别成为了投资者关注的重点问题。然而,对于投资者个人而言,获取大量P2P网贷平台的详细信息较为困难,这不仅需要投资者掌握一定的网络数据采集技术,而且要求其能够对采集到的数据进行预处理,这就导致投资者个体对平台信用风险的识别能力十分有限。基于上述现状,笔者将研究主题确定为P2P网贷平台的风险识别,即基于能够获取到的信息,研究采用哪种模型能够更好地揭示出与平台风险相关的属性X和平台信用状态Y之间的潜在关联规律,从而对当前运营平台的信用状态做出预测,辅助投资者进行理性投资,尽可能规避高危平台,减少亏损。笔者从国泰安数据库下载了部分平台近几年的运营数据。对于网贷之家、网贷天眼这两个采用了AJAX技术的P2P网贷行业咨询网站,笔者通过配合使用Selenium Server与rvest包中的有关函数,实现这类动态网页的数据爬取。在爬虫结束后笔者发现部分平台的数据仍存在缺失,最后通过人工方式查询了大量P2P网贷平台官网的信息,收集所需数据。数据收集完毕后,笔者通过构建大量的正则表达式对字符串进行处理,纠正明显错误,删除无效属性,整合不同来源的数据,删除重复信息,提供数据一致性。由于数据集中仍存在缺失值,笔者采用missForest对数据集中的缺失值进行填充。最终得到的数据集包含6522条平台数据,共82个属性,涵盖平台的基本信息、运营状况、投资者印象、信用状态这四个方面的内容。通过分析平台的运营状态与信用状态之间的关系,笔者将各类运营状态的平台分别标记为“可信”平台、“不可信”平台、“未知”平台。最终,共有84家“可信”平台,2859家“不可信”平台,3579家“未知”平台。之后,笔者使用随机森林进行特征选择,并统一对所有特征进行最大最小归一化处理。由于数据集的不平衡现象较为严重,同时含有大量未标记数据,笔者根据研究问题的特点将可信平台查全率、不可信平台查全率、代价敏感错误率作为评估指标,通过设计对比实验,一方面解决样本不平衡现象带来的困扰,另一方面在有标记部分相同的数据集上分别训练有监督学习模型和半监督学习模型,并计算各类模型的评估指标,最终选择表现最佳的模型对运营平台的信用状态做出预测。笔者训练了CART决策树、Bagging、随机森林、BP神经网络、朴素贝叶斯、SVM、kNN这7种有监督学习模型;在半监督学习方面,训练了TSVM、图半监督学习模型以及基于上述7种有监督学习模型两两组合而成的多种协同训练模型。训练过程中使用网格搜索确定各类模型的最优参数组合,其中TSVM与SVM的参数设置一致,协同训练中基学习器的参数使用默认参数。实验结果表明:笔者使用的任一模型,都不能同时获得最高的可信平台查全率和最高的不可信平台查全率;在相同参数组合下,TSVM的表现往往优于SVM;表现最佳的有监督学习模型是kNN(k=7),记为模型1,表现最佳的半监督学习模型是协同训练模型(SVM与kNN协同),记为模型2;尽管模型1能够获得最高的可信平台查全率(94.77%),但其代价敏感错误率相比模型2提升了314.93%,模型2充分利用了大量未标记数据,获得了最高的不可信平台查全率(96.89%)和最低的代价敏感错误率。因此,半监督学习模型能够有效应用于P2P网贷平台的风险识别领域。
其他文献
<正> 三、作为会计平衡公式理论支撑的“共同治理契约”杨瑞龙、周业安(1997,1998)提出了“共同治理契约”,即由人力资本所有者和非人力资本所有者来分享企业的所有权。他们
从鞋业、电子产品到厨房电器,到处都会贴着“中国制造”的标签,它已成为时代的象征。过去10年间,美国每年从中国的商品进口量由约810亿美元增长到2008年的3380亿美元。给人的感
近年来在移动处理与显示领域大力发展的前提下,主打增强现实技术的智能显示设备不断更迭出新。增强现实(Augmented Reality,AR)显示设备的典型实例为穿戴式眼镜,例如微软的Ho
十九大报告明确指出:“确保粮食安全,把中国人的饭碗牢牢端在自己手中。”粮食作为一种特殊商品,对一个国家的经济和社会发展具有至关重要的作用,粮食安全是国家安全战略的重要内容。在经济全球化的背景下,我国粮食市场不仅受到国内因素的影响,还受到世界其他国家的冲击。随着全球化进程的进一步推进,我国粮食市场所面临的外部冲击越来越多,粮食价格波动的不确定性不断增加。国内外学者在分析外部冲击与粮食价格之间的关系时
超高压技术是一种非热杀菌技术,具有较好保留果蔬营养物质,香气成分和风味物质等特点,已广泛用于果蔬汁的加工中。新疆南疆具有丰富的石榴、苹果资源,其品种多、营养价值高、分布较广的酸石榴医用价值较高,但因口感酸涩难以鲜食,苹果甜度较高,目前这两种水果主要是鲜售,但货架期较短,造成大量的资源浪费。为了进一步提高酸石榴、苹果的利用价值,为人们提供新型复合果汁饮料,本研究以酸石榴、苹果为原料,通过单因素试验、
随着社会经济的发展,女性频繁地参与到社会生产的各个环节中,由此形成女性出行活动时间和空间不断扩大,出行链构成元素呈现多样化和复杂化的趋势。近来媒体报道女性在出行期间受到人身侵犯的事件,将“女性出行安全”一词变成了舆论关注的热点,女性出行的安全问题亦受到全社会民众的高度关注。女性由于身理心理特点,迫切需要更安全的出行环境。传统个人安防硬件产品,例如鸣叫报警器、防狼喷雾等,无论是从可用性还是实用性方面