高维数据视角下个人信用评级方法研究

来源 :东北财经大学 | 被引量 : 0次 | 上传用户:kezhixiao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,互联网的发展速度飞快,互联网金融已经成为金融体系的重要组成部分,各种P2P网贷、现金贷等网络信用贷款的快速发展也使得我国个人消费贷款规模逐年扩大,随着个人消费贷款规模的扩大,近年来的年末不良贷款率也呈上升趋势,由此可见防范信用风险依然是金融行业的重要任务。虽然我国个人信用评级体系越来越完善,但随着互联网技术的蓬勃发展,数据维度呈现高速增长趋势,这也给信用评级建模带来了挑战,一方面是高维数据环境下的降维问题,怎样实现高维数据向低维数据的转换一直是待解决的问题;另一方面是如何避免人群异质性对信用评级结果的影响,由于用户消费观念、社会地位等实际情况的差异,会对其信用评级带来不同的影响,忽略这些潜在的异质性就会降低个人信用评级模型的适用性。文章以高维数据为视角,在国内外已有的个人信用评级方法研究基础上,首先提出一种基于随机森林和主成分分析的两阶段降维方法进行高维数据的降维,结合两类降维方法优势,实现高维数据向低维数据的转换同时保留了大部分重要信息;然后运用分类建模思想,利用K-means聚类算法先将用户进行聚类,并挖掘不同类别用户之间的潜在差异,再在不同用户群体中分别利用逻辑回归算法、支持向量机算法、XGBOOST算法进行个人信用评级建模,从而实现将人群潜在异质性考虑到信用评级中,并利用准确率、精确率、召回率等模型评价指标进行多阶段模型的比较,寻找适用于个人信用评级的预测模型,并量化基于随机森林和主成分分析的两阶段降维模型和基于K-means聚类算法的人群分类模型对个人信用评级的影响程度,为个人信用评级技术提供一种新的思路。文章以某金融机构的高维个人消费贷款数据为建模数据进行实证分析并得到以下结论:①基于随机森林和主成分分析的两阶段降维模型在实现降维的同时提高了模型的预测效果,将原始进入模型的126个特征降维到20个主成分,并且使模型预测精度由0.8077提升到0.8481,模型召回率由0.2128提升到0.4043。②K-means聚类算法可以有效识别人群的潜在异质性,利用K-means聚类算法将人群分成了两类,第一类人群表现为低资产、低消费、低借贷特征,第二类人群表现为高资产、高消费、高借贷特征,且相比于一类人群,二类人群有显著更高的违约率。③相比于逻辑回归算法与支持向量机算法,XGBOOST算法在个人信用评级中有更好的表现,在一类人群中的模型准确率达到0.9414,在二类人群中模型准确率达到0.8855,并且模型召回率、F1值、AUC值等模型评价指标也明显优于其他两种算法。④分类建模方法可以进一步提高个人信用评级的模型预测效果,分类前模型预测精度为0.8481,分类后两类人群分别提升到0.9414和0.8855,并且召回率与F1值也有明显的提升。文章在以下几个方面实现了创新:第一,本文创新的提出了一种基于特征选择和特征提取的两阶段降维模型来实现高维数据的降维,实现在将高维数据转化成低维数据的同时保留大部分有用信息,并且可以有效提高个人信用评级模型的预测效果;第二,本文利用了分类建模思想将人群之间潜在的异质性问题考虑到个人信用评级中,首先利用K-means聚类算法将人群分类,并挖掘不同人群之间的潜在差异,然后在不同人群中分别进行建模分析;第三,本文选择真实高维数据进行个人信用评级的实证研究,增强个人信用评级模型在现实应用中的适用性。本文存在的不足主要体现在,研究虽然采用高维数据进行个人信用评级的实证分析,但实际用户消费情况多种多样,仅用一万条数据很难覆盖全面的用户消费情况,模型训练结果还有一定的提升空间。
其他文献
服役桥梁在长期环境和车辆荷载的共同作用下,加之材料的老化,会逐渐出现不同程度的损伤,当损伤不断发展并积累到一定程度时,会对桥梁的正常使用产生影响,甚至发生桥梁的垮塌事故,因而尽早发现桥梁的结构隐患尤为重要。本文基于全过程迭代法对二维和三维车桥模型进行耦合振动分析,提出了基于测点位移响应和应变响应的 DDI(Difference of displacement integral)和 DSI(Diff
学位
高速公路汽车的安全行驶问题一直是交通安全问题中最重要的部分之一。运动型多用途汽车(Sport Utility Vehicle,SUV)具有质心高、驾驶速度普遍速度较快等原因,高速公路SUV汽车的追尾事故以及侧翻事故时有发生,因此高速公路上SUV的安全跟驰以及操纵稳定性问题引起研究者的兴趣。相对于减少汽车事故发生后生命财产损失的被动安全技术,旨在提高汽车行驶安全以及操纵稳定性的主动安全技术则更具有前
学位
改革开放以来,我国经济总量迅速扩张,居民的经济收入也有了显著提高,目前,以GDP为代表的中国的经济总量排名已经连续十年位居世界前二。而社会主义的最终目标并不仅仅在于物质财富的增加,而是要改善整个社会的福利水平,从而提高居民的生活满意度。然而在现实中,与经济的高速增长相对应,整个社会的居民生活满意度并没有得到同等程度的提升,相反,经济高速发展的背后带来了诸多负面问题,例如贫富差距过大、城市生活成本激
学位
近年来,海岛旅游逐渐兴起,不断成为旅游业中重要而独特的一部分。岛屿由于远离大陆,其独特的狭小空间地域能为旅游者提供全面、深入、独特的游览感受,并且由于其特有的地理位置,旅游者在踏入岛屿之后的空间流动也呈现了特定的分布特点。本文的主要案例地长山群岛旅游景区资源丰厚,四季分明,冬温夏凉,为北方著名消夏避暑胜地;空气清新洁净,堪称“纯天然氧吧”。目前,长山群岛处于海岛旅游发展新时期,在注重自身旅游发展条
学位
随着经济的飞速发展和科学技术的突飞猛进,传统的时空观念逐渐瓦解,我们的地球仿佛一个小小村落,世界变得空前开放,国家与国家之间的交往日益密切,世界经济一体化的格局不断深化,我国在中共18大上也提出了“人类命运共同体”的理念,世界各国之间相互依存、互利共赢已成为人心所向的大趋势。然而在2018年,美国不顾世界人民共同发展、互利共生的意愿,对多个国家采取了贸易保护措施,这一举措在一定程度上破坏了世界经济
学位
解决居民的粮食供应问题是国家民生工程的重要战略规划之一,农业作为粮食生产的主要产业^对保障居民的日常生活所需提供了必要的支持。近年来,农业技术的持续创新以及农产品加工的转型升级,使得中国农业的综合竞争力大大提升,粮食供应量和农业总产值都大幅增加。然而,在农业经济实现快速转型升级的同时,一系列农业环境污染问题也应运而生:农药、化肥、农膜的不科学使用带来了化学物质残留问题,不仅污染了生态环境,还会对人
学位
基于节点离散的无网格法具有节点布置灵活、形函数高次光滑等特点,在处理大变形、移动边界、高阶问题等方面有明显优势。但是无网格的形函数通常为有理式,形式较复杂,伽辽金无网格法通常需要高阶的高斯积分才能取得较好的计算精度,但高阶数值积分直接导致计算效率较低。因此,发展高效数值积分方法是伽辽金无网格法的一个核心研究内容。直接节点积分采用节点作为积分点,可大幅提高计算效率,但其存在稳定性较差的缺点。目前得到
学位
超高层建筑已是现代城市中不可或缺的因素,随着结构形式、材料、技术的不断革新,最高建筑的记录不断被刷新,高层建筑柔度愈发增大,更易发生风致振动。传统的抗风设计通过增强截面、设置加强层的方法减小位移,不仅增加造价且存在诸多缺陷。除了调整结构布置和结构形式外,被动控制技术作为一种经济、高效的技术,已成为结构抗风设计的常用方式。本文以高层建筑中较为常见框架-核心筒结构作为研究对象,在现有研究中,学者们相继
学位
近年来,我国城市化水平快速提高,工程科学技术不断发展,实际工程项目中出现了很多新的高层建筑结构形式,其中,采用双塔连体结构这一结构形式的工程尤为广泛。这种结构使得高层建筑可以有丰富多样的造型设计表现,除了常见的平面完全对称的双塔连体结构,更多的连体高层建筑采用非完全对称的结构,其中较为典型的就是单轴对称双塔连体结构。连体高层结构相较于普通高层结构,有更多的复杂性,在地震发生的时候,连体结构相较于普
学位
随着社会发展与时代的进步,我国的旅游业已经从资源短缺转变到了资源充裕的旅游大国,旅游日益成为人们必不可少的生活形态。许多知名在线旅游平台(OTA平台)如携程、飞猪、蚂蜂窝、去哪儿网等,为广大旅游者提供极大便利。但由于线上购物部分功能的局限性,旅游者无法通过OTA平台完整获取旅游产品的信息,并了解产品与服务的具体情况。另外,不可移动性作为旅游产品的属性,决定了旅游产品生产与消费的同步性,旅游消费者不
学位