基于数据仓库的消费金融信用等级模型及应用研究

来源 :商展经济·上半月 | 被引量 : 0次 | 上传用户:gegengwang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:消费金融所面向的主要客户是低收入群体,如果采用传统的信用风险评估模型不是很适用。随着移动互联网技术的发展,以及社交网络的兴起,在消费金融机构中,数据成为核心金融资源,大量的数据信息都被集中处理,并将信用评级模型建立起来,对风险做出预测。本文着重研究基于数据仓库的消费金融信用等级模型及应用,首先分析了消费金融客户数据仓库及其私有云体系结构,然后探讨了消费金融客户信用等级模型的构建,最后对基于信用等级模型的客户群体进行了分类与预测。
  关键词:数据仓库;消费金融;信用等级模型;应用;体系构建
  本文索引:韩佩轩.<标题>[J].商展经济,2021(15):-057.
  中图分类号:F832 文献标识码:A
  DOI:10.12245/j.issn.2096-6776.2021.15.18
  1 消費金融客户数据仓库及其私有云体系结构
  1.1 消费金融大数据整体框架
  信息技术发展速度不断加快,消费金融能够获得更加精准的金融数据,同时数据量逐渐增多,在进行金融数据处理的过程中以及对有关数据分析的时候过程比较繁琐,需要耗费大量的时间。所以,在数据处理过程中如果依然运用传统的技术,是很难满足需求的[1] 。建立消费金融大数据整体框架,对数据信息进行存储、处理,并做好统计工作。
  1.2 消费金融大数据平台架构设计
  1.2.1 系统功能模块
  数据仓库架构,主要为六个模块,具体介绍如下:
  其一,数据采集模块主要的功能是对原始数据进行采集,并在数仓中存储。
  其二,消息队列模块是缓冲队列,其接收上游生产者传输的数据信息,向下游消费者传输[2] 。
  其三,数据预处理模块,用于预处理消费消息队列中的缓冲数据,经过流处理模块计算之后存储在实时数仓中。
  其四,实时数仓,可以提供实时数据查询。
  其五,非实时数仓,对于T+1时间的数据统计、数据分析以及数据查询服务予以提供。
  其六,数据接口平台,将数据查询接口提供给各业务系统。
  1.3 消费金融大数据平台数据管理
  1.3.1 数据抽取
  其一,抽取结构化数据。通过sqoop,可以将生产数据库中的所有库存数据导入HIVE,通过canal将每天增加的数据伪装成MySQL的从端,利用主数据库中的binlog进行查询,实时读取的时候,向Kafka队列中写入数据,而且还要实时更新数据传输到开源数据库中,开源数据库所发挥的作用是每天将数据定期抽取到HIVE中。
  其二,抽取非结构化数据。非结构化数据是与结构化数据相对应的,即为视频信息、图片信息等,都不是由数字表达数据信息。这些数据都在RDB中统一存储,将结构化数据导入数据库,媒体文件数据存储在文件系统中。利用字符识别技术将非结构化数据转换成文本,提取出来,并在数据库中存储。
  其三,抽取埋点日志。对客户行为日志用Kafka缓冲,Web前端和后端使生产者将数据写入到指定的Topic[3] 。
  1.3.2 数据转换及处理
  将数据维度模型建立起来,对于分析需求快速完成,且响应性能得以发挥。在维度建模的时候,对决策的需求进行分析,构建数据模型,为分析需求提供服务。通过分析模型,将维度表建立起来,通过整合数据,搜集个人基础信息,建立客户信息表。
  2 消费金融客户信用等级模型的构建
  2.1 消费金融客户信用等级细分模型
  2.1.1 k-means聚类算法
  k-Means算法,是聚类数量经过定义固定之后,将记录迭代向聚类分配,并对聚类中心进行调整,在模型没有建立之前,其是作为一种无监督的学习机制存在的。该算法的特点是输入字段需要一个或多个字段,可以输出的信息为多个,能够快速集聚大型数据。
  2.1.2 模型建立
  本文应用K均值聚类算法建立了消费金融客户信用评级细分模型。具体采用如下的设计方法:
  其一,在样本数据的选取上,合理选择客户数据主要用于细分消费信贷的信用等级。
  其二,对数据信息分类处理中,可以根据消费信贷行为划分为两个群体,即有消费行为的客户群体和无消费行为的客户群体[4] 。
  其三,在处理数据的过程中,基于有消费信贷行为的客户对数据进行处理。
  2.2 消费金融客户信用等级概率预测模型
  2.2.1 算法介绍
  其一,决策树算法。决策树是一种预测模型,是一种层次二叉树结构。树中的每个内部节点为单个变量指定一个替代测试。对于实值和整数值变量,使用阈值,对于属性数据,使用成员子集[5]。每个数据从树的根沿着唯一的路径向下到一个叶节点,变量在每个内部节点的选择测试结果中确定具体的路径。每个叶节点为最可能的叶分类指定类标签。
  其二,逻辑回归算法。在线性回归中,样本点设置在空间中的直线上或直线附近,自变量和因变量可以用线性函数表示,从而阐明它们之间所存在的对应关系。然而,在某些应用中,既可以用曲线来表示变量之间所存在的关系,也可以用非线性函数来表达这些关系。这个时候的计算依然是用最小二乘法,但参与回归的时候则是以变量函数的形式。典型的是非线性回归中,因变量是一个随机变量,只有0和1两个值。自变量通过线性组合影响因变量的期望,获得回归模型[6] 。
  其三,随机森林算法。由于消费者信用评级的概率模型为分类模型,所以模型比较多,可以根据需要选择。比较常用的模型是决策树、logistic回归以及随机森林等算法。
  2.2.2 模型评价指标
  回归算法的评价参数主要包括精确率、召回率和 F1分数。   其一,精确率。模型预测是正,而且实际是正的样本数量/模型预测是正的样本数量,计算的时候使用
  TP/(TP+FP)。精确率就是通过预测所获得的结果,主要的作用是预测为正的样本中对的一共是多少。
  其二,召回率。模型预测为正和实际为正的样本数/模型预测为正的样本数,TP/(TP+FP)是用于计算的公式。将召回率与原始样本进行比较,表示样本中有多少正面的样本,以及有多少被预测的样本是正确的[7] 。
  其三,F1分数。该分数就是精确率与召回率的调和平均数,计算所采用的公式:
  F1分数=2×精确率×召回率/(精确率+召回率)
  2.3 基于迁移学习的小样本解决方案
  2.3.1 生成式对抗网络算法
  采用迁移学习法可以通过现象对问题的共性把握,并能熟练地处理新问题。生成式对抗网络算法即为GAN算法,这是一种新的机器学习思想。在这个模型中,参与者有两个,一个是生成模型,另一个是判别模型,其中的生成模型重在捕获样本数据的分布,生成的样本与实际训练数据相似,其中为了生成与真实训练数据相似的样本,越接近真实样本越好。所谓的“判别模型”是一个双分类器,根据训练数据的概率对样本进行估计。如果样本的数据是通过真实的训练获得的,就可以断定其为输出大概率;如果样本的数据不是通过真实的训练获得的,就可以断定其为输出小概率。生成式对抗网络算法的主要目的是对发生器的输出情况做出判断[8] 。
  2.3.2 模型建立
  其一,选择数据。如果在真实样本中发现有数据选取样本不足的问题,需要过滤掉客户数据字段,对消费者信用等级进一步细分。
  其二,处理数据。在处理缺失值的时候,需要按照当前类型比例对分类变量的缺失值信息进行随机化填充,如果在宽表处理之前连续性变量的缺失值已经处理了,则缺失的时候都默认赋值为0。
  对异常值和极值进行替换,使其成为最接近极值的值。例如,如果离群值定义为高于或低于三个标准差的任何值,则所有离群值都将替换为该范围内的最高或最
  低值[8] 。
  其三,迭代次数的设置。将总的迭代次数和一次训练迭代的操作是固定发生器,对鉴别器进行K次训练,使鉴别器逼近最优鉴别器,然后固定鉴别器,对发生器进行一次优化训练。执行训练循环,直到达到总迭代次数n。
  3 基于信用等级模型的客户群体分类与预测
  3.1 变量分析
  对2019年5月至2020年5月的客户数据实施模型训练,以产品的所有业务数据作为样本,客户的逾期率可以达到1.1%,不良率可以达到0.6%。从客户的属性来看,主要包括个人基本信息、信用行为信息、第三方外部信息。与客户相关的变量为233个,对变量进行分析,对客户的区分度进行分析。
  3.2 消费金融客户信用等级细分模型实验结果
  基于sparkML框架,使用scalar程序将K-means模型进行设计。聚类数目由2个增加到10个,调整聚类数目后,选择最优聚类数目。如果簇的数目是第一次迭代为3,此时的模型就是最优的[9] 。
  比如,群体一,是2046人,在人群总数中所占有的比例是9%,平均授信是180000元,平均年龄是40岁,要比整体客户的平均年龄要高一些。
  群体二,是17050人,在人群总数中所占有的比例是75%,这个群体的年龄分布比较广泛,授信额度的分布也是比较大的。
  群体三,是3602人,在人群总数中所占有的比例是16%,这个群体的年龄是37岁。
  对第二组进一步细分。风险客户群主要包括拒绝客户。日利率为0.000666,群体一的授信额度较高,被称为“高授信客户群”。第三组群体风险较大,称为“风险客户群”,第二组称为“大众客户群”。之前有过授信额而且有过借款,但此后就调整了授信。
  如果按照客户的生命周期对大客户群进行分类,可以进一步细分为一个独立的群体,具有很大的战略价值。大众年轻客户年龄在19岁到30岁之间;大众不断增长的客户年龄在31至38岁之间;顾客的年龄介于39岁到46岁之间。
  3.3 消费金融客户信用等级概率预测模型实验结果
  进行训练的时候按照决策树模型、逻辑回归模型和随机森林模型,模型评价指标按照精确率、召回率、F1分数等,结果表明,随机森林模型的结果比较高,模型准确率高于90%,预测效果非常好。
  4 结语
  通过上面的研究可以明确,研究互联网消费金融等级模型,根据时间选择合适的模型分析风险控制是非常必要的。在本文的研究中,基于消費金融客户数据仓库及其私有云体系结构,构建消费金融客户信用等级模型,对客户群体进行分类并预测,提出做好风险评估的重要性,为信用风险管理研究提供依据。
  参考文献
  刘新海.数字金融下的消费者信用评分现状与展望[J].征信,2020,256(5):70-77,86.
  郑浦阳.基于期望确认模型的消费金融用户感知对持续使用意愿的影响研究[J].品牌研究,2020,42(3):130-133.
  常尚新,刘秀.基于PVAR模型的消费金融对经济增长影响分析[J].商业经济研究,2019,787(24):161-163.
  郑浦阳.用UTAUT模型进行消费金融领域的消费者行为分析[J].福建茶叶,2020,219(3):99-100.
  刘铮.基于SOR与理性行为模型的大学生使用消费金融工具行为影响因素及机理研究——以“蚂蚁花呗”为例[J].金融理论与实践,2020(7):59-66.
  申卓.大数据背景下互联网金融机构的信用评级模型研究[J].中国新通信,2019,21(1):203-205.   陳琳,季凌.基于数据挖掘的中小企业客户信用评级模型的设计与实现[J].海峡科技与产业,2019(1):67-68.
  杨洋洋,谢雪梅.基于大数据的电商网贷动态信用评级模型研究——来自“拍拍贷”的经验数据[J].征信,2019, 37(9):30-38,53.
  杨洋洋,谢雪梅.基于大数据的电商网贷动态信用评级模型研究——来自“拍拍贷”的经验数据[J].征信,2019(9):30-38.
  Abstract: The main customers of consumer finance are low-income groups, and the traditional credit risk assessment model is not very suitable. With the development of mobile Internet technology and the rise of social networks, data has become the core financial resources in consumer financial institutions. A large amount of data information is processed in a centralized manner, and a credit rating model is established to predict risks. This paper focuses on the research and application of consumer finance credit rating model based on data warehouse. Firstly, it analyzes the consumer finance customer data warehouse and its private cloud architecture, then discusses the construction of consumer finance customer credit rating model, and finally classifies and forecasts the customer groups based on the credit rating model.
  Keywords: data warehouse; consumer finance; credit rating model; application; system construction
其他文献
摘 要:全球化的深入发展使我国会展企业不仅专注于国内市场的业务发展,也逐渐把目光投向国际市场,积极开拓国际业务。本文采用PEST分析法分析我国会展企业发展国际业务的宏观环境,并对我国会展企业的国际业务进行分类,从中探讨我国会展企业国际业务发展现状。总体上我国会展企业的两类国际业务发展态势良好,市场前景广阔,但其专业性不足等缺点也在一定程度上影响了我国会展企业国际业务的发展步伐,所以目前我国会展企业
疫情不仅使全球人类面临健康风险,对于经济更是造成了不可磨灭的打击,尤其是实体经济在疫情期间损失惨重,不少企业没能逃过破产倒闭的命运.然而也有一部分企业,通过对企业业
摘 要:尽管新冠肺炎疫情在短期内给我国经济带来了沉重打击,但从长期来看,数字经济的蓬勃发展缓解了疫情带来的负面影响,且会在疫情带来的产业机遇下进一步促进我国经济高质量发展。本文在总结数字经济的相关概念和核心特征的基础上,指出数字经济通过效率提升与创新发展的双重路径来助力我国经济恢复发展,并以生鲜行业的盒马鲜生为例具体阐释其作用。为促进数字经济的长远发展,中国需进一步加强新基建,加快数字技术的开发与
摘 要:移动互联网时代下,信息技术变革激发了商业模式的变迁。商业模式创新能够助力企业实现价值创造,获取竞争优势,但对企业的技术创新与市场定位有着严格要求。北京字节跳动科技有限公司(以下简称字节跳动)在“信息超载”及“移动端搜索引擎不便”的时代挑战下,顺应移动互联网发展趋势,通过“社交创新+硬件创新”的双模式创新,满足当下市场需求,其创新路径与当下的许多公司存在着很大差异。本文通过研究字节跳动如何利
摘 要:站在母公司所有者的角度,结合企业财务管理的目标,提升归属于母公司所有者的净利润,是企业集团长远健康发展的基石。从企业集团整体角度考虑,提升归母利有利于企业集团长期健康发展。企业集团从增强集团管理活力、增加集团利润总额、充分利用财税政策扶持等方面发力,综合运用多种手段,不断提升归母利。本文围绕财务管理目标、归母净利润的来源、提升归母净利润的措施等进行了深入的探讨。  关键词:净利润;归母利;
摘 要:针对中小投资者的利益受损问题,相关研究众多,其中既有股票市场制度政策层面的探讨,即顶层设计的研究;又有投资技术技巧层面的分析,即具体投资操作方面的研究。本文试图从对中国股票市场历史数据的整理和分析中,探索出一种适合中小投资者的股票投资策略,将其运用于中国股票市场投资中,从而为中小投资者提供股票投资概率策略和具体操作方案,以期改善中小投资者的投资状况,为中小投资者实现持续盈利提供一定的帮助。
摘 要:企业采购和库存管理体系的调整和完善,是企业战略中提高自身竞争力的核心。目前,随着企业的现代化发展,基于供应链管理环境下的采购和库存管理研究也在逐渐深化。在供应链管理环境下,采购管理一直在改革和发展之中,库存管理作为生产供应链下的主要环节,其理念和手段也在不断完善。本文基于供应链管理环境的相关理论及文献梳理,形成了以采供、物流、销售等要素为中心的合作运营和信息共享的内部交流体系,希望实现稳定
摘 要:在经济发展的过程中,应注重农村振兴发展。在振兴工作中,产业振兴是其核心内容。要想更好地帮助农村发展经济,需要对农村产业进行扶持,加强政府与农民的交流,使农民及时了解政府提出的新政策,并将其运用到农村产业发展中。另外,政府应该注重产业创新,积极促进产业升级。本文对推进乡村振兴工作中存在的问题进行详细的阐述,并制定相应的方案,助力乡村产业振兴,提高产业的发展水平。  关键词:农村;产业振兴;经
摘 要:京津冀的协同发展为商业银行的发展带来了机遇,拓宽了商业银行业务发展的空间。但与此同时,商业银行发展也面临一定的挑战。对此,本文立足于京津冀协同发展的内涵,分析京津冀协同发展下商业银行的发展挑战,论述京津冀协同发展下商业银行与区域经济发展之关联,探究京津冀协同发展下商业银行推动区域经济发展模式的实践方式,最后提出京津冀协同发展下商业银行推动区域经济发展模式的实践路径。  关键词:京津冀协同发
摘 要:最高人民法院判决对赌协议本身是否有效基本不存在争议,但对赌协议的有效对象的认定分为“只与股东对赌有效”和“与公司对赌亦有效”两派观点。前者认为“与公司对赌”违反投资领域风险共担原则,存在不可避免的风险而无效;后者认为“与公司对赌”体现了商事法律领域中的意思自治原则,具有积极作用而有效。对此,《全国法院民商事审判工作会议纪要》明确“与公司对赌有效”规则,具体实施时须注意遵循当事人意思自治与区