基于选择集成和联邦迁移的金融风控模型研究

来源 :中央财经大学 | 被引量 : 0次 | 上传用户:windFWF1992
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网行业的发展,金融机构信息化转型的需求也越来越大,互联网金融业务应运而生。互联网金融业务改善了传统金融交易模式,促使金融业的发展和变革。然而,大量互联网金融业务的涌现也直接导致了风险问题的集中爆发。信用卡欺诈、贷款逾期、贷款坏账等不良金融事件时常发生。为了维护经济市场秩序,保障金融行业持续发展,我国政府高度重视互联网金融业务出现的问题,颁布相应法律法规等文件,针对风险问题开展专项整治工作。由此可见,建立一个有益于金融行业健康发展的标准化体系从而做到风险的事前预警是十分重要的。本文主要是针对以下四个金融风险问题进行设计和建模的:问题一,目前金融风控模型大多基于单数据集进行建模,常使用单一机器学习模型(如决策树、支持向量机等)、同质集成模型和大体量的异质集成模型,这些模型虽能保证一定的预测准确性,但是在稳定性、泛化能力、计算和存储代价等方面仍有不足;问题二,随着新兴金融业务的发展,金融机构对风控模型的需求也日渐增长,然而新业务往往存在数据量小、信息收集不全面的情况,难以使用该数据建立较好的业务风控模型。并且新业务往往会针对客户进行新一轮的信息收集,这就导致了新数据与旧数据特征空间不一致的情况,新数据不能使用已经训练好的模型进行预测;问题三,由于数据隐私问题,各金融机构仅能使用有限的本地数据进行建模和风险监测,这就使得大规模的协作建模方式难以实现。如何在保证参与方(银行、证券等金融机构)数据安全性的同时建立共享模型是风控领域的重点问题。并且参与方的数据信息由于在收集时并未制定统一的标准,因此会出现特征分布不一致的问题;问题四,各类金融风控场景虽存在描述不同的情况,但若进行具体分析可以发现其中的相同之处,因此若可以在新场景出现时利用分析得出的场景定义与现有模型进行快速匹配,可以有效增加模型的应用场景,提升建模效率。针对第一个问题,本文建立了一个基于AHC算法和Metropolis准则的异质集成风控模型。该模型在stacking的两层基础上加入了第三层为投票层,学习器筛选往往在第一层进行。首先通过研究选择出多个适用于金融风控领域的单一学习器,使用AHC算法通过临近簇合并的结果对基学习器种类进性选择,保证学习器的差异性和稳定性。然后引入模拟退火中的Metropolis准则思想,设定由准确率和Kappa系数组成的度量值,在迭代中对学习器进行二次筛选,该度量指标既保证了学习器的性能,也进一步约束了学习器的种类差异性。该部分提出的基于层次聚类和模拟退火的选择集成风控模型,可在确保模型准确性的同时提升模型的稳定性和泛化能力,节省计算和存储的开销。针对第二个问题,采用迁移学习的思想。将新业务数据定义为目标领域,旧业务数据定义为源领域。引入流形学习思想,通过计算源域和目标域之间的流形结构建立特征的自适应空间。自适应空间为领域间特征对齐的桥梁,将数据从原有维度向空间中进行映射,从而实现数据特征的自适应对齐。然后将经过数据特征对齐的数据输入至第一个问题提出的AHC-Metropolis集成学习模型中,通过集成学习模型的优势,进一步提升模型预测的准确度。该部分提出的基于特征自适应对齐的迁移集成风控模型,可有效消除迁移过程中特征空间不一致为建模带来的障碍,并保证了模型的稳定性和预测的准确性。针对第三个问题,引入了联邦学习思想。模型依托于分布式的联邦学习框架,通信过程中共享数据参数但不共享本地数据。每次通信抽取一定比例的客户端进行模型参数和模型名称的分发,客户端利用本地数据建模,底层模型采用卷积神经网络,并采用梯度下降的方式更新参数随后上传。在参数聚合处理方面,引入联邦平均算法对参数进行计算。并且在初始的数据处理时,使用特征自适应对齐的迁移算法对参与方特征空间进行处理,为全局模型的建立提供数据处理方面支持。该部分提出的基于深度学习的联邦迁移模型,确保了数据的隐私安全,建立可共享的全局风控模型。针对第四个问题,建立规则库。将信用卡欺诈、贷款逾期、多企业建模等多个场景的场景定义、特征含义、标签含义存储在场景库中,将成熟模型作为基础建设存储在模型库中。当需要针对风控场景建模时,通过规则匹配流程进行模型的选取,执行规则并运行模型得到最终的结果。该部分提出了基于规则的金融风控场景模型,提升模型选择的效率,为跨业务、跨机构的信息化平台建设提供参考价值。通过实证分析得出,本文提出的模型在解决各自的问题时均有较为显著的表现,可为建立助力我国金融行业发展的风险监管标准化体系提供可供参考的解决方案。
其他文献
党的十九届五中全会报告《中共中央关于制定国民经济和社会发展第十四个五年规划和二〇三五年远景目标的建议》中提出把“多层次社会保障体系更加健全,卫生健康体系更加完善”作为国家的重大战略部署,并且将“民生福祉达到新水平”作为“十四五”时期经济社会发展的六大目标之一。财政作为国家治理的基础和重要支柱,对构建完善的医疗卫生系统、实现“十四五”时期经济发展目标有着重要作用。政府提高医疗卫生领域支出的有效性和合
学位
城投企业作为地方政府提供城市公共物品的有力工具,在支持地区基础设施建设、改善居民生活水平、促进区域经济平稳发展等方面发挥了重要作用。曾以地方政府融资工具为定位的城投企业,尽管其独立经营能力较弱,但由于政府兜底即隐性担保的存在,使得城投企业融资成本与其经营实力相脱节,由此给地方财政的可持续发展埋下危机。随着地方隐性债务防范化解紧迫性的提升和城投企业政府融资功能的剥离,城投企业进入了市场化转型时期。而
学位
当下人口老龄化问题严峻,社保征收压力较大,为了加强社保费的征收,我国于2011年7月1日在全国范围内正式推行《社会保险法》,完善了相关的法律制度。由于之前我国社保工作的合规性较差,《社会保险法》的实施能够对全国的社保工作进行统筹,规范征管工作。有很多文献研究证实了该项措施对改善我国社保费的征收情况发挥了很重要的作用,在《社会保险法》实施之后,企业的参保程度明显提升。但另一方面,由于之前我国社保费的
学位
立场检测旨在判断一段文本的作者对某个目标(主题,观点)表示赞成,反对或中立的立场。学术界和工业界都十分关注立场检测任务的发展,在许多不同的领域中逐渐浮现立场检测的实际应用,例如医疗决策、产品调研、政治选举等等。其中,在政治选举领域中最常见的应用是民意调查或民意投票,使用自动立场检测技术,检测出一个地区(或网络社区)的群众对政策法规等的反应,维护社会安全与稳定。决策者可以获知群众对其决策的立场反馈,
学位
在当今这个互联网平台迅速发展的时代,人们对于精神娱乐的需求更加迫切,音乐成为人们精神娱乐的一种重要方式,互联网音乐平台蓬勃兴起。但海量的音乐信息让人眼花缭乱,如何解决信息过载问题、给用户提供个性化的音乐推荐成分为网络音乐平台发展的关键。本文梳理了传统推荐算法的发展过程与研究现状,发现单一的推荐方法存在一些缺陷,如用户特征画像难、新用户冷启动、推荐精度低、数据稀疏等问题。后续学者逐步使用更加多样的方
学位
随着世界城市化进程的不断推进,城市建筑需求量急剧增加,其相应的一系列建材和资源也产生了广阔的市场。识别建筑结构类型是衡量特定建筑所需建筑资源负担的先决条件,有助于建立建筑结构、材料和资源需求之间的联系以及建筑物抗震能力检测等等,从而有助于建立智慧城市形态、推进城市新陈代谢和生态规划等可持续城市研究。机器学习可有效助力建筑结构分类问题,其通常需要大量的有标注样本作为训练集构建机器学习模型。但在实际应
学位
近年来,数字化开始成为了世界商业环境中关注的重点,众多金融企业都在积极地向数字化、智能化方向转变,而中国也在十九大中明确提出了要加速构建数字中国。而这一数字化浪潮,离不开以区块链为代表的新技术的支撑。传统金融的数字化是大势所趋。供应链金融是一种全新的金融业务,其核心功能是银行将核心企业与其上下游企业捆绑在一起,并提供如融资贷款等相关金融服务。该金融业务诞生的初衷是为了解决小微企业难以融资的问题,然
学位
随着我国资本市场不断发展,上市公司数量不断增多,财务舞弊案件层出不穷,扰乱我国资本市场的同时也造成了投资者的经济损失。进行公司的舞弊识别成为对于上市公司监管的重要任务,有利于维护投资者利益和资本市场稳定。本文将研究目光放在年报文本上,将年报文本中的管理层讨论与分析文段作为研究对象,从多个角度对于年报文本中信息量含量较大的管理层讨论与分析文段进行文本特征提取,加入到舞弊模型中,查看文本特征对于舞弊识
学位
信用风险是信贷业务的主要风险来源。近年来,随着社会经济的快速发展,信用消费的经济形式越来越普遍,违约风险也随之增多。我国目前的信用现状仍存在很多问题,严重的违约风险很大可能会影响社会经济的健康发展。如何准确和全面地对个人信用风险进行评估是银行等金融机构的重要任务和必然要求。传统的信用风险评估方法过于依赖个人征信,缺乏时效性和全面性。大数据时代的到来提供了丰富的数据,加上深度学习技术在多个领域内的成
学位
从上世纪60年代诞生至今,电子游戏产业发生了翻天覆地的变化,特别是伴随着2021年以来元宇宙的异军突起,由于其自身特性与电子游戏的追求不谋而合,使得电子游戏再次受到了人们的广泛关注。诸如寻路及难度预测两大问题对于游戏的设计与开发至关重要。寻路系统是指通过一定算法在最短时间内,为角色找到一条从起点到终点、无碰撞的最短路径。因为寻路的效率影响游戏智能体决策的能力,因此寻路系统的优劣在很大程度上决定了最
学位