基于分层特征选择和模型融合的信贷违约预测研究

来源 :中央财经大学 | 被引量 : 0次 | 上传用户:zeng007008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前社会下,贷款已成为人们消费的重要手段,同时能够促进货币流通。但是,随着信贷规模的不断扩大,金融风险问题发生的频率也在不断上升。贷款各个银行的主营业务,因此如何有效进行信用贷款的风险管理是各大商业银行亟待解决的重要问题。只有具备良好的风险管理能力,银行的发展才能更加平稳顺利,同时各个银行风险管理能力的提高对社会稳定也有着重要意义。在贷款流程开始之前,金融机构往往掌握着海量且复杂的借贷人信息,本文需要解决的问题就是如何在海量的信息中洞察出同信贷违约结果密切相关的变量,通过分析这些重要变量,有效地识别出存在违约风险的用户。为解决上述所提出的主要问题,本文从信贷背景出发,构建了一个分层特征选择和融合训练模型框架,通过当下主流的二分类预测模型对信贷数据集进行训练并得到最终的预测结果。在研究过程中主要涉及到了三个重点子问题:第一,针对信贷数据集的不平衡和多重共线性问题,提出相对应的解决方法;第二,针对信贷数据集的高维且复杂的特点,提出了一种分层特征选择框架,包括特征预筛选和特征的二次筛选两个阶段,对每个阶段所使用的算法和整体框架进行了详细介绍并分析其有效性;第三,为了得到更好的违约预测结果,将使用分层特征筛选框架得到的最优特征子集运用到之后的模型训练阶段,主要采用逻辑回归模型和Light GBM模型以及两者使用voting融合方法之后的融合模型,对最优特征子集进行训练得到预测结果。最后,围绕上述几个问题本文进行了证明实验,从数据的预处理和探索性分析开始到最后得到实验结果以及实验结果的分析,本文都做出了详细介绍和流程展示。实验结果最终证明了本文所提出的分层特征筛选框架和融合模型的使用都对信贷违约预测结果的提升具有有效性。本文所具有的创新点主要有以下三点:第一,在特征的预筛选阶段,对Relief过滤式筛选算法进行了改进,针对不平衡的信贷数据集更多地关注少数类也就是“违约”用户,更加具有现实意义,对最后的预测结果也有提升作用;第二,是在特征的二次筛选阶段,利用SBS后向序列搜索算法同Light GBM算法相结合,利用封装式特征选择方法,完成对信贷数据集的二次筛选,得到最优特征子集,不仅能得到对预测结果影响较大的特征,还大大减少了高维数据集的维数,在效率上得到了有效的提升;第三,在模型训练阶段,将逻辑回归模型和Light GBM模型融合使用,融合方式采用软投票的方式,对前一阶段得到的两个最优特征子集进行取交集处理并放入融合模型进行训练,得到了比单一训练模型更好的预测效果,从了验证了融合模型的有效性。
其他文献
真实性是新闻的生命,然而随着媒介技术的发展,虚假新闻却以各种新的表现形式泛滥于当下的媒介生态中,其造成的广泛危害引发了学界的普遍关注与业界的不断思考,对于虚假新闻的分析与应对仍旧是当前社会值得关注与思考的重要话题。本研究旨在突破传统的将虚假新闻作为新闻真实对立面的批判性框架,运用宏观与微观相结合、新闻与社会相联系的媒介生态学视角对虚假新闻加以重新审视,以实现对虚假新闻本体更为深入的研究。通过选取具
学位
当今全球化背景下,中西方关系局势复杂多变,中国和英国作为亚欧大陆重要的世界经济大国,其双边关系对中欧乃至亚欧格局都有着深远影响。一直以来,媒体都在各国政治和国际关系问题上扮演重要角色,国际话语权的缺失已经成为软实力中牵制国际影响力的最主要问题。因此,本研究从策略性叙事和批判性话语分析相结合的视角出发,从宏观到微观地探究英国《泰晤士报》和《每日电讯报》代表的主流媒体在涉华疫情报道中的中国国家形象建构
学位
信息流广告以原生形态,将广告融入内容之中。2006年,国外社交媒体平台Facebook发展信息流广告业务。2011年,Twitter开展信息流广告业务的实践。通过不断地产品优化与市场拓展,信息流广告已成为互联网平台主要的广告收入渠道之一。与此同时,国内互联网平台也开始探索信息流广告发展道路。自2012年始,新浪、腾讯、网易、百度、字节跳动、快手等平台纷纷入局,创新信息流广告形式,凭借信息流广告业务
学位
广告产业快速发展的同时,也带来了一系列亟待解决的互联网广告治理问题。在互联网广告快速发展的背景下,发挥广告审查在事前监管中的作用,优化广告内部审查制度,促进广告监管的科学性和有效性,应是推进广告治理的应有之义。制度是实现治理的基本手段,广告审查制度是我国广告监管体系中的重要组成部分,在不断健全和完善中也推动着我国广告治理的规范化,在预防违法广告的产生和发布、维护市场秩序方面发挥着重要作用。要想进一
学位
1921年中国共产党成立,“百年恰是风华正茂”,历经了百余年历史征程关,于中国共产党的诞生纪念也有着重大的历史意义。一个国家和民族对共同事件的记忆是集体记忆的主要表现方面,它并不是简单的记忆叠加,而是综合因素共同作用的结果,大众媒介在集体记忆的构建过程中也发挥了不可磨灭的作用。毛泽东同志提出将七月一日作为中国共产党的成立纪念日,此后历年的七月一日都成为我国重要的节日之一。《人民日报》作为我国第一党
学位
中视频顾名思义就是一种介于短视频与长视频之间的一种视频形态,其时长为1分钟到30分钟,以横屏的形式呈现视频内容的新的传播机制。中视频的受众定位是:碎片化信息传播下的深度阅读群体,受众根据自己的信息需求到互联网的“信息海洋”中搜寻符合自己兴趣的信息,这也就为碎片化时代下的深度传播提供了发展的机遇。不同于短视频瀑布流的浏览模式,中视频需要用户打开特定的网站、App,根据自己的需求进而点击视频,这就对视
学位
党的十九大报告提出乡村振兴战略,明确乡村振兴“产业兴旺、生态宜居、乡风文明、治理有效、生活富裕”20字方针;近几年的中央一号文件重点工作意见中都反复强调了推动乡村精神文明建设的重要性。传播优秀乡村文化事关乡村精神文明建设,有助于培养农民自我认同感和自豪感,树立乡村良好的精神风貌,助力乡村走向物质生活与精神世界的双重富裕。乡村节日承载着特色民俗文化和丰富内涵,传播乡村节日文化既能够提升农民群体的文化
学位
随着互联网的发展以及信息传播技术的高度成熟,互联网给在现实社会中处于结构性弱势的残障者带来了一个重新融入社会并获得生存和发展必需资源的途径,残障者至此实现了“互联网就业”的可能。近年来移动互联网、智能终端和移动端媒介的高速发展推动了媒介格局和传播权的重现洗牌,许多应运而生的新媒介通过降低技术门槛的方式对原本处于技术弱势的群体进行了赋权,如短视频平台的“视觉赋权”。“互联网+”与新媒介赋权的双重助推
学位
区块链具有分布式结构、透明可信、不可篡改等特性,被广泛应用于金融、医疗和政务等领域中。共识算法作为区块链的核心技术之一,其作用是在分布式网络中确保多节点对某一提案的意见一致性。联盟链是当前区块链应用主要部署形式,其共识算法可分为故障容错类(Crash Fault Tolerant,CFT)和拜占庭容错类(Byzantine Fault Tolerant,BFT)。CFT类共识算法保证在分布式系统中
学位
踏着人工智能的发展浪潮,文本情感分析技术通过对评论文本中的方面、观点、情感等进行分析计算,为人们获取观点信息提供了便利。文本情感分析技术按细粒度大小可分为篇章级、句子级和方面级情感分析,其中,方面级情感分析由于面向更具体的方面,拥有更广阔的应用前景。方面级情感观点提取(Aspect Sentiment Triplet Extraction,ASTE,也称方面级情感三元组提取),是目前方面级情感分析
学位