融入借款描述的网贷信用风险识别研究

来源 :中南财经政法大学 | 被引量 : 0次 | 上传用户:zhui130
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前互联网贷款行业正处于促健康化、规范化发展阶段。信用风险是从互联网贷款行业到整个金融业最常见、最基本的风险之一,信用风险的识别也是关注的重点问题之一。互联网贷款相比传统金融信用风险更高,因此亟需研究如何借助更多的信息识别信用风险。目前在网贷信用风险识别的研究中,算法和指标都有研究空间。借款人通过通话交流、文本信息提交等方式对借款目的、还款能力、还款意愿等信息的主观描述会被记录,这些借款描述在一定程度上是对借款人资料的补充。因此,将借款描述这一文本类软信息融入借款人特征,作为信用风险识别考察因素,再结合logistic回归、随机森林、XGBoost等机器学习算法,来提升信用风险识别的准确性,可完善互联网贷款信用风险识别方法,助力互联网贷款行业的促健康化、规范化工作。本文首先从国内网贷网站爬取了100267条真实借款记录,变量数为54;接着分定性变量和定量变量对指标进行描述性统计分析,初步探究影响违约的因素;然后对借款描述文本信息进行了主题提取,步骤分为文本分词、最优主题数确定和LDA主题模型结果分析,得到了每条借款描述文本的主题概率分布和每个主题的高频词,提取出每条借款描述传递出的与信用风险相关的信号,并结合变量删减和文本提取结果初步完善了信用风险影响因素指标体系;最后是网贷信用风险识别模型构建。在变量选择、数据不平衡处理和独热编码的基础上,分别构建logistic回归、随机森林和XGBoost模型,得到各个模型的查准率、查全率、F1值、ROC曲线和AUC值,横向比较不同模型的评价指标,纵向比较融入借款描述前后各模型评价指标的变化,找到识别效果最好的模型,并判断借款描述对于信用风险识别的重要性。文本得出以下结论:第一,通过对借款描述文本构建LDA主题模型,可将文本概括为五个主题,分别是借款用途主题、创业投资主题、基本信息主题、资质审核主题和信用保证主题。其中,在其他特征相似的情况下,透露借款用途主题、创业投资主题和信用保证主题的借款人信用风险相对较大,透露基本信息主题和资质审核主题的借款人信用风险相对较小。第二,通过对融入借款描述主题概率的借款人特征构建机器学习模型,并横向比较不同模型的评价指标发现,XGBoost模型和随机森林模型在查准率、查全率、F1值、ROC曲线和AUC值上的表现均优于logistic回归模型,因此优选XGBoost模型和随机森林模型作为网贷信用风险识别的二分类模型。第三,通过纵向比较融入借款描述前后的建模结果发现,无论哪种二分类模型,在融入借款描述后模型的评价指标均优于融入借款描述前,因此融入借款描述信息对于识别网贷信用风险具有重要意义。
其他文献
当今社会互联网的发展取得了巨大进步,微信、微博、QQ等社交产品彻底改变了传统短信、电话的联系方式,让我们的生活越来越便捷。知乎这种问答式社交平台也相应取得了巨大发展,知乎的注册用户数日益增多。在知乎平台上聚集的用户越来越多,他们都通过平台分享自己的问题、知识和意见,产生丰富多彩的的内容。但众多的用户在线上操作、分享资源,使得平台的数据量呈现爆炸式增长,信息过载的现象日趋严重。因此,以用户的历史交互
学位
随着经济全球化以及信息通信技术的飞速发展,全世界的电信行业都在经历着巨大的变革。而电信套餐业务作为电信运营商营收的重要来源之一,套餐推荐问题的相关研究也越显重要。随着人工智能的发展,人们可以使用数据挖掘技术,充分发挥统计学与机器学习在特征处理、模型预测中的优势,对用户实施智能化的套餐推送,这对运营商实现精准营销以及优化用户使用体验等都有一定的促进作用。本文拟在运用各类数据挖掘方法构建较为完善的用户
学位
在金融领域,对于世界各地的股票市场进行着广泛的关注,投资者想要预测未来股票价格的波动情况,以达到降低风险,获取最大收益的目的。但是,股市是一个被多因素影响的市场,这就造成了股指序列是一种十分不稳定的时间序列。对于非平稳的金融市场,研究者想要挖掘股指变动的趋势和其他更深层次的特征信息,在这样的背景下,如果能准确的预测股指的变动趋势,那么对于指导我国股票市场的交易活动有着非常重要的意义。基于此,本文提
学位
在我国建设现代化经济体系的道路上,区域协调发展战略和乡村振兴战略都是其中不可或缺的一环,县域地区作为紧密连接城乡的枢纽,在以上战略中起着关键的作用。为实现县域经济的可持续发展,来自县域金融层面的支撑也必不可少。广东省作为改革开放的先行者,在中国社会主义现代化建设的全局中起着十分重要的作用,其GDP连续多年处于全国第一的位置。在其经济总量不断增长的同时,区域内经济差异问题日益突出,成为阻碍整个地区进
学位
现代社会“大数据”时代的来临使得人工智能运用到各行各业,为促进行业发展提供强大动力。在保险领域,对于充分挖掘数据价值的研究还处于起步阶段,各保险公司都迫切希望从海量数据中提取有效信息,从而推出综合竞争力更强的产品,并制定更为合理的营销策略,吸引更多的客户。在发展商业医疗新客户的业务中,若能跟据所了解的数据进行分析,研究影响居民购买行为的主要因素,分辨出更有可能购买的高价值客户,锁定目标人群从而进行
学位
<正>增韧不同于增柔,增柔使材料整体柔化,而增韧使材料呈多相结构:树脂基质连续相和弹性体颗粒分散相(亦可称此种多相体系为“海岛结构”)。这种结构特点,使树脂韧性提高,而机械性能、耐热性能损失较少。
期刊
目的 探索舒肝健胃丸联合埃索美拉唑镁肠溶片、莫沙必利片治疗胃食管反流病患者的效果。方法 87例胃食管反流病患者,随机分为对照组(43例)及实验组(44例)。对照组患者服用埃索美拉唑镁肠溶片联合莫沙必利片治疗,实验组患者在对照组基础上结合舒肝健胃丸治疗。比较两组患者治疗前后的反流性疾病问卷(RDQ)评分及食管24 h pH检测指标(反流持续≥5 min次数、最长反流持续时间、pH<4的总时间百分比、
期刊
随着移动互联网的日渐普及,基于按键的点戳行为在很多时候替代了人们的书写行为,导致手写汉字的机会越来越少。生活中对于手写汉字的关注程度和练习程度被大大弱化,致使当今社会很多人不仅写不出漂亮的汉字,甚至是挂在嘴边的字,也经常出现提笔就忘的尴尬场景,几乎患上了“书写遗忘症”。针对该现象,社会各界强烈呼吁加强对汉字的书写训练,与此同时国家也颁布了一系列的政策纲要,强调了汉字书写的重视性,并进一步促进书法训
学位
阿尔兹海默症是一种常出现老年群体中的神经性脑疾病,是全球第四大死亡原因。我国2019年的研究显示,中国老年人群痴呆患病率接近6%,约有1000-1100万人正在经受着疾病带来的痛苦,一项2019年的研究显示,预计在不久的将来发病总人数会有显著增加。阿尔兹海默症病症情况较多且复杂,诊断需要大量的检查,检查费用高昂,另外还存在我国人民群众对医疗需求日益加深和医疗资源分配不均之间的矛盾,因此阿尔兹海默症
学位
基于大数据、云计算等科技创新技术,中国的数字经济特别是数字金融经历了快速的发展,如云闪付、支付宝、微信支付等。这些移动支付工具提高了金融服务的可得性和便利性,从而推动中国普惠金融的发展。数字普惠金融能够充分发挥科技创新优势,突破传统金融服务模式面临的障碍,被普遍视为推动包容性增长的重要途径之一。同时,现有文献主要研究分析普惠金融对经济发展或包容性增长水平的影响,但关于数字普惠金融对包容性增长的研究
学位