基于群决策的信用风险识别

来源 :上海财经大学 | 被引量 : 0次 | 上传用户:lucas_f
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网技术的发展,金融创新不断取得突破,互联网信贷行业也在快速成长。虽然相比于传统的银行信贷,它在某些方面取得了巨大的突破。但其仍然面临着巨大的信用违约风险,这对互联网信贷平台的各方参与者来说都存在巨大的潜在危害。对于信贷平台来说,应对信用风险的一个重要措施就是提高对风险交易用户的识别能力,建立预报警示机制。不少研究表明机器学习算法在识别违约用户方面有比较好的表现,但互联网信贷平台涉及到的数据特征量大且复杂,并且其影响也是非线性的,单一模型很难在所有方面得到一个比较优良的结果。模型融合可以起到将各模型优势互补的作用,体现“集体智慧”。本文基于群决策思想,将不同信贷风险预测模型进行融合,来识别风险用户。群决策思想的模型融合本质上是一种加权平均融合,但其以优化预测结果的不确定性为目标函数。本文从如下两个方面对群决策融合的具体实施过程进行了优化。一、由于群决策使用信息熵作为优化方法,所以本文提出在进行模型融合前可以对模型概率预测值进行调整,以保证预测结果在0.5时不确定性最大。二、将群决策融合方法与模型动态选择思想相结合,提出了基于聚类的群决策融合方法。既能够实现参与融合的模型的动态选择,又实现了权重的动态调整,对样本预测更有针对性。群决策融合有以下几方面特点:(1)常用的动态权重方法大都基于模型的预测误差或其他效果指标来确定权重,群决策则是使用信息熵作为优化目标,来实现权重的动态调整。(2)基于聚类的群决策对不同的样本单独选择表现最优的几个模型进入到模型融合阶段,然后使用群决策计算动态权重。既能够实现参与融合的模型的动态选择,又实现了权重的动态调整,对样本预测更有针对性。(3)交互性,群体中所有个体间彼此影响,可以对不同质的模型进行融合,集成各学习器的长处。利用相关平台的用户数据进行实证分析,研究群决策的模型融合方法在信用违约预测方面的实际效果如何。由于数据主要是平台用户的行为记录等“足迹”信息,单位价值量比较低,所以在特征工程中从RFM、Nunique、分组统计、文本挖掘等多角度进行特征提取,以尽可能提取有效信息。模型建立过程中,将数据集划分为训练集、验证集、测试集三部分,在训练集上用随机森林、XGboost、Light GBM、GBDT和神经网络等算法训练违约预测的模型,并采用网格法进行调参;对验证集样本进行Kmeans聚类,根据CalinskiHarabasz准则确定聚类数目中心点,并且计算中心点和个体学习器在各簇上的AUC值。当新的样本进入预测时,计算其与各簇中心点之间的距离,选取最近的那簇样本作为“相似样本”,通过个体学习器在相似样本上AUC值选取3个最优模型作为参与融合的基模型,然后根据最佳分类阈值对基模型的预测结果进行修正,将修正后的基模型预测结果以及模型AUC输入到群决策算法中即可得到最终的融合结果。此外为了验证基于聚类的群决策融合方法是否优于普通的群决策融合方法,本文也计算了普通群决策的融合结果及其效果指标,作为对照。基于某移动支付平台的实证结果显示,在个体学习器方面,XGboost、Light GBM和神经网络模型在AUC指标上表现都优于随机森林和其它模型,XGboost在KS值上表现最好。模型融合结果显示,群决策融合后的结果预测效果优于单一模型,并且相比于普通的群决策融合方法,基于聚类的群决策融合后的模型在AUC值与KS值上有明显提升。基于群决策的信贷风险对于互联网信贷的风险管控是有一定帮助的。
其他文献
在社交媒体高速发展的今天,网络上的社交文本形成了一个极具价值的文本库,尤其是对于美妆品牌而言,中国市场的美妆行业近几年正在急速扩张,其中新模式社媒营销起了很大的推动作用,比起其他行业,美妆行业是较早应用互联网技术进行社会化媒体营销的行业之一,因此社交文本成了该行业一个很重要的信息来源。本文旨在通过分析社交媒体平台中消费者关于美妆品牌的真实评价,提取合适的关键词进行情感分析、IPA分析及共现分析,使
学位
命名实体识别是指识别出一段文本中具有人名、地名、专有名词等特定含义的实体。中文命名实体识别任务是自然语言领域的基础任务,是许多上游任务的基石,而医学文本是中文命名实体识别的一个非常重要的领域。本文就医学文本命名实体识别中存在的嵌套实体识别难的问题提出了一些有效的解决方案。对于命名实体识别,业界通常采用序列标注的方法来识别实体。对于非嵌套实体这样做是方便且有效的,但是对于嵌套实体而言,会出现一些问题
学位
随着互联网时代的到来,社交网络蓬勃发展,已成为当代社会信息传播的重要渠道和载体。在线社交网络中每天产生海量且流动的信息。然而信息流行度分布极其不均,绝大部分信息的流行度较低,只有极少数信息具有着较高的流行度。因而了解信息是如何传播的,以及什么样的因素驱动信息的传播,并对信息流行度进行预测成为了广大科研人员的关注热点。本文针对社交网络中的信息流行度预测问题展开实证研究,主要内容如下:对社交网络流行度
学位
在如今的大数据时代,信息传递与反馈变得尤其快速,随着科学技术的不断发展,人类社会步入崭新的信息化时代,互联网的迅速发展使得人们的生活方式发生了极大的改变。各种打车的APP层出不穷,出行变得越来越方便。而对于运营打车APP的企业,在市场竞争不断加大的情况下,如何更好的运营,对不同的乘客使用独特合理的策略,从而提高收益和留存率,成为大家关注的话题。乘客干预效应是智能补贴算法的一环,它的涵义是指乘客被发
学位
随着互联网的快速普及,电子阅读逐渐兴起,各大电子阅读运营平台通过各种形式和渠道拉取新用户,以获取更多的市场份额。与此同时,用户切换使用平台,几乎无需付出任何代价,使得各电子读书服务平台正面临或即将面临高用户流失风险。哈佛商业评论研究显示降低5%的用户流失率可以使企业的利润增长25%至85%。随着电子阅读市场的竞争越来越激烈,电子读书服务平台有必要对现存活跃用户进行流失判断并分析原因。本文所构建的用
学位
近年来,互联网特别是移动互联网的迅速发展,使得网上购物变得方便、快捷,且相较于传统线下购物的方式网上购物价格更加透明,更多人趋向于网上购物。2020年淘宝双十一购物狂欢周创造了总交易额5249亿元的“神话”,仅双11当天的全网销售额就为3328亿元,京东11月1日至11月11日购物节的全网销售额在2715亿元,苏宁易购线上订单同比增长72%。互联网电子商务企业大促成绩亮眼,不仅反映了国内消费者的强
学位
本论文主要提出与国内商业银行对公活期存款业务有关的研究问题并进行量化分析。法人活期存款作为商业银行的一项重要业务指标,近年来在利率市场化的背景下呈现显著下降的趋势,然而目前少有从微观业务角度出发、针对商业银行内法人活期存款的影响因素进行量化探究分析的理论成果。因此本论文主要通过量化分析的方法对法人活期存款余额及其增幅的影响因素进行探究,验证结算及贷款业务指标对法人活期存款余额及其增量的显著影响。法
学位
广告,是广告主向他人推销自己产品或服务的一种方式,此方式不仅方便快捷,实际上也成为广告主商业变现的很大一部分来源。随着互联网的发展,广告的形式已逐渐从线下转换到线上平台,其中应用最广泛的便是互联网搜索广告模式,该模式以付费手段来提高网站的权重,结合搜索引擎根据用户的即时兴趣定向投送广告。该模式被称为搜索引擎营销,已经逐渐成为各大广告商的首选,这其中最关键的步骤就是需要从广告中提取出一系列关键词,再
学位
随着我国经济不断发展,根据中国统计局2019年发布的信息,我国GDP同比6%左右增长,全年全国居民人均可支配收入同比增长8.9%。我国居民收入不断提升,有了更多的闲置资金,产生了更多的投资需求,有投资意愿的人约占总人口的65%,这对提高投资组合管理效率提出了更高的要求。投资组合管理最基本的思想是要平衡风险和收益,该思想是由马科维茨在均值-方差模型中提出的,通常可以用夏普比率来衡量一个投资组合的好坏
学位
实时音视频通信技术被广泛应用在协同办公、在线教育、娱乐互动等领域,COVID-19的全球大爆发极大地强调了现代实时音视频通信工具的重要性。随着国家新型基础设施建设的推进和云、5G等技术的不断发展,在可以预见的未来内实时音视频互动将会给人们的工作和生活方式带来深远的变化。带宽、延时、丢包、抖动是反映网络通信能力的重要指标,网络通信中的拥塞控制力图在低延时条件下提供高的音视频质量,从而提升产品服务质量
学位