基于集成学习的贷款辅助决策系统研究与实现

来源 :中南财经政法大学 | 被引量 : 0次 | 上传用户:hdf1038
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
经济的高速发展带来资金的频繁流动,随着社会需求和消费观念的转变,信用贷款成为当前人们解决资金周转问题的首选方式。随着需求的不断增加和我国信用体系的不断完善,海量数据带来维数灾难以及特征繁多等问题,给贷款违约预测带来新的挑战。因此将集成学习技术应用于贷款辅助决策具有一定的理论研究价值和现实需求意义。本文基于特征工程和多视图学习结合集成学习技术,对实际贷款数据进行建模分析,设计并实现了基于集成模型的贷款辅助决策系统。主要工作有:(1)利用箱线图过滤了数据异常值;对K近邻填补缺失值方法进行高斯加权优化,对比实验均值填充、随机森林填充方法,表明了改进方法的有效性,接着通过交叉验证对比不同K取值时模型的准确率,最终确定K为5的高斯优化加权K近邻法来进行缺失值填充;(2)对比实验随机过采样、SMOTE过采样、Easy Ensemble欠采样和混合采样方法,建立决策树模型来评价采样效果,采用AUC值作为评价指标,最终确定混合采样作为最终的采样方法。(3)通过Pearson相关系数法去除高相关性特征,使用随机森林模型进行特征重要性排序,为了更加精确特征个数,采用递归特征消除的方法最终选择24个特征作为后续模型的输入,一定程度上缓解了数据维数灾难问题。(4)结合文献和专业知识,进行多视图数据划分,针对每个视图建立梯度提升决策树基模型并输出软概率,基于模型距离对每个基模型进行动态加权融合,实现了基于模型距离的多视图集成模型。对比业界成熟模型XGBoost和Light GBM,并利用网格搜索交叉验证法对各个模型进行调参,一定程度提升模型的表现,结果表明基于模型距离的多视图集成模型有着更优秀的泛化能力。(5)结合实际需求,利用Django框架和My SQL数据库设计实现了贷款辅助决策系统。本系统在对贷款申请进行违约概率预测的同时进行违约成本估算和风险等级划分,给出辅助决策意见。实现贷款业务员对海量数据的快速处理和高维特征的精确选择,有效提高贷款审批速度同时降低资金损失。
其他文献
如今,伴随着互联网和智能终端的广泛应用,教学模式也随之发生了巨大的变化,在线教育受到了越来越多人的青睐。在网络学习的环境下,受到网速等因素的影响,学生无法保持老师当面授课那样的专注度。而课堂专注度是评估学习质量的重要指标,代表着学生对知识的接受程度和感兴趣程度。另外,在传统的教学模式下,教师可以时刻观察学生的课堂表现。但是在线教育由于空间的限制,教师无法及时获取到学生的学习情况。所以在线上授课的过
学位
在人工智能技术不断发展的历史大背景下,中国的教育行业也逐步引入人工智能技术来辅助教学。对不熟悉的试题,进行针对性的重复练习是提升学习效果的重要手段。然而,家长往往难以获取试题的原始电子文档。通过图像处理工具对试卷笔迹进行手动擦除成为一种获取原始电子文档的手段,这种方法不仅浪费了大量的人力资源,对于不会操作图像处理工具的家长更是形成了阻碍。本文针对这种应用场景,提出一套试卷图片笔迹自动擦除的技术方案
学位
视觉三维重建可以利用二维图像得到三维点云,还原物体的三维信息,这是许多三维应用中核心的一步。三维重建中,单目视觉法以其设备简单、成本低、使用灵活以及适用场景广泛等优点而深受学界与业界青睐。稀疏重建作为单目视觉法中基础的一步,是提升三维重建性能的方向之一。当前的稀疏重建中,都是单独用一种特征提取算法进行稀疏重建。因为每种特征提取算法所提取的特征有各自的优点,且目前没有任何一种特征提取算法能够很好地应
学位
近年来,随着卡通动漫产业的蓬勃发展,有关卡通类的视频呈现了爆炸式的增加。对卡通类视频智能化理解的首要步骤就是对视频中动漫角色的身份信息正确识别,如何正确识别这些动漫角色是计算机辅助建模、摄影、自动剪辑、广告推荐等众多视觉应用不可或缺的前提条件。因此在卡通动画场景中,如何智能化的实现动漫角色的检测是当下一个亟待解决的问题。深度学习在图像分类领域取得了很大的成果,有效地提高了图像检测和识别的精度,以及
学位
数字高程模型(Digital Elevation Model,DEM)在地质、军事、水文、测绘和灾后应急救援等方面提供了十分重要的数据支持。湖北省的地貌类型多样,山地、平原、丘陵和岗地兼备,地势高低起伏较大,西边神农架的最高峰神农顶海拔可达3105米,而在其它中南部等区域的海拔多在35米以下,因此对湖北省的DEM数据及地形地貌进行研究具有易扩展性。由于单个DEM数据产品具有局限性,而且越来越多的D
学位
肺癌是常见的癌症类型,也是发病率和死亡率均位居前列的疾病。肺癌早期的表现大多是肺部出现小结节,因此肺结节良恶性的早期定性诊断成为临床研究的重点。医生通过CT技术对肺结节进行筛查,降低了肺癌的死亡率,然而,人工观察CT图像进行疾病诊断效率较低且主观性较强。因此,基于CT图像检索的肺结节辅助诊断研究对提高医生的诊断效率具有重要意义。传统的医学图像检索方法存在手工提取病灶区域的局限性,本文基于图像分割的
学位
随着互联网技术的蓬勃发展,电商行业在互联网技术的支持下也取得了高速的进步,由于网络购物的便捷性与高效性,越来越多的人选择在电商平台进行消费。网购过程中会产生大量的数据,而商品评论就是其中非常重要的一部分。普通消费者在选购商品时会重点参考商品的在线评论,然而在线评论往往体量巨大,导致消费者无法高效利用。为了使消费者能够充分地利用在线商品评论进行网购,本文结合相关理论技术实现了一个基于在线评论的商品辅
学位
随着市场对工业产品的要求越来越高,基于传统数字图像处理的自动化表面缺陷检测难以满足实际生产需要。随着基础硬件计算力的提升,人工智能(AI)技术逐渐登上应用舞台,这促使基于深度学习的表面缺陷检测方法成为工业视觉领域中的主流研究方向之一。然而,AI应用开发有着训练数据来源及格式复杂、训练依赖于多类型资源、开发流程繁琐等特性,现今公开的AI解决方案和相关平台存在模型和图像数据管理不统一、数据安全性不高和
学位
随着互联网和物流系统的高速发展,线上购物方式已经成为消费者购买商品的首要选择。在网络购物规模日益扩大、频率日益增加的背景下,电子商务平台每天都会产生大量的商品评论数据。线上购物中商品评论对消费者购买意愿有较大影响,而动辄数以万计的商品评论需要使用情感分析系统分析。现有的情感分析系统多采用监督学习方法,这种方法需要大量高质量标注数据对模型训练,但标注数据的获取需要昂贵的人工和时间成本,同时无标注数据
学位
随着中国社会经济的不断高速发展,我国目前机动车保有量快速增长,这一方面见证了中国社会经济的发展,人民生活水平的提高,另一方面也对城市道路的通行能力提出了更高的挑战,城市交通状况不断恶化。虽然各个城市的道路交通基础设施在不断完善,各种交通出行政策不断发布,但是交通拥堵情况仍不容乐观。交通拥堵问题是各个城市面临的难题之一,也是城市发展过程中需要解决的重大问题。移动互联网时代的到来让所有的移动端设备都能
学位