基于RF和APSOLSSVM的两阶段信用评估研究

来源 :西南财经大学 | 被引量 : 0次 | 上传用户:xjc132
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在互联网飞速发展的信息时代,我们的衣食住行等生活的诸多方面都发生了翻天覆地的变化,尤其是移动互联网与金融的结合,正悄然改变着人们的消费习惯,拉动了国内的居民消费浪潮。在互联网金融对消费的刺激作用下,人们越来越依赖信用交易的方式进行消费。目前信用消费的规模正飞速增长,但信用消费在拉动经济的同时也带了诸多问题,由于我国缺乏较为公正的第三方信用评级体系,商业银行各自的客户信用信息不被共享,因此我国的个人征信系统还不完善,相应的缺乏比较全面的信息来衡量每个人的违约风险,另外,在风险的控制和管理上也存在明显不足,没有一套科学有效的信用评估体系,此外,授信额度的判定也尚未有一个明确的解决办法。而在信用交易规模的趋势日益扩大的今天,对个人信用评估的重要性和准确度的要求都越来越高,对评估方法的改进也显得尤为重要。建立一个全国共享的个人信用信息基础数据库势在必行,目前已经由中国人民银行牵头,建设一个全民社会征信制度和体系,来约束人们遵纪守法,提高诚实守信的意识。由此可见,对个人信用进行合理的预测和评估,一方面对商业银行的信用风险管理体系有一定的借鉴作用,促进银行等金融机构授信业务的稳健发展,另一方面可以在一定程度上防范金融风险,尽量规避客户的违约风险,收益性与安全性统筹兼顾。学术研究方面,国内外学者从定性和定量的角度对个人信用评估也进行了一系列的研究,涉及到计量学、统计学、人工智能和机器学习等多个领域,但目前为止尚未形成一种稳健、可靠、通用的个人信用评估模型及体系。而我国商业银行等信贷机构在个人信用评估的实际操作中,与国外尚有一定的差距,手段方法及技术比较落后:一方面主观因素较大;另一方面人工操作,效率较低。因此本文以个人信用评估方法为研究中心,结合国内外的研究及现实数据,试图构建一种新的个人信用评估方法,即将随机森林算法(Random Forest, RF).自适应粒子群优化算法(Adaptive Particle Swarm Optimization,APSO)和最小二乘支持向量机算法(Least Squares Support Vector Machine, LSSVM)结合起来,研究了新的组合模型的信用评估效果,其中利用了随机森林算法的特征向量的重要性估计做了特征选择,研究了删减重要性程度低的特征变量对模型分类性能的影响,以推动个人信用评估研究的深入,同时为商业银行提供一种可参考的信用评估方法。本文以个人信用评估方法为研究对象,引入了随机森林算法、自适应粒子群优化算法和最小二乘支持向量机算法。个人信用评估实质上可以看作是一个分类问题,即将总体客户划分为好客户(不违约客户)和坏客户(违约客户),因此个人信用评估属于模式识别的研究范围。通过选取样本数据,并进行数据的预处理,最后构建了RF和APSOLSSVM的两阶段信用评估模型,并在实证中进行了比较分析。为了实现研究目标,本文章节安排如下:第一章,引言。该章节介绍本文的选题背景和意义,研究方法、思路和章节安排。阐述目前我国信用消费的发展趋势,并指出研究个人信用评估的重要意义,总结了本文进行研究所用到的研究方法和内容框架。第二章,个人信用评估及其现状研究。理论部分的研究包括个人信用评估的理论基础,国内外已被研究应用于信用评估模型的算法理论概括,是本文的理论基础。本章节通过研究个人信用相关的基础理论和国内外算法的研究现状,对国内外个人信用评估的研究成果进行梳理,将本文涉及到的个人信用评估算法分三类进行介绍。第三章,RF-LSSVM的算法构建。本章主要讲解RF和LSSVM算法的基本原理,以及每个算法各自的特征分析,最后阐述了RF-LSSVM算法如何运用于信用评估的分类问题,算法可行的基本原理和构建组合方法的具体实现步骤。第四章,信用数据集介绍及实验前准备工作。介绍实验中涉及的4个信用数据集的样本信息,以及实验前数据预处理,阐明算法的参数设置和模型评估的标准。第五章,RF-LSSVM算法在个人信用评估中的应用。实证研究部分是将新建立的模型应用于信用数据集,通过模型之间的比较和数据集上的实证结果分析,来检验新方法的可适用程度。第六章,结论与展望。最后结论和展望部分,总结概括全文,分析不足之处以及未来可发展的方向。本文在总结国内外个人信用评估模型的基础上,提出了一种新的组合模型:RF-APSOLSSVM模型,在对模型进行实证检验时,选取了UCI机器学习公开的德国信用数据集,澳大利亚真实信用数据集和国外研究者提供的英国信用数据集、波兰信用数据集。在实验前,这些信用数据集都经过了填补缺失值、指标赋值、归一化等一系列的数据预处理。同时,本文共选取了8个比较有代表性的信用评估模型,分别在上述这四个信用数据集上建模,与本文提出的组合分类器的预测结果进行比较分析,更加全面地验证了组合模型RF-APSOLSSVM的适用性和分类的有效性。实验结果表明了本文所构建的组合模型RF-APSOLSSVM的分类性能要优于大部分的个人信用评估模型。本文的结论可以归结为以下几个方面:(1)组合模型可以取得更好的预测结果。随机森林模型具有OOB估计、特征变量重要性估计的优势,但R讧模型的预测精度与APSOLSSVM模型相比略差一些,因此RF模型通过与APSOLSSVM模型相结合,不仅可以利用到特征变量重要性的估计结果进行了特征选择操作,还可以较为良好的预测精度,在一些信用数据集上,组合模型的结果甚至优于APSOLSSVM模型。(2)不同的特征选择会带来预测结果的变化。APSOLSSVM模型的运算时间很长,RF-APSOLSSVM组合模型使得一些相对重要程度不高的变量得以删减,特征变量的删减使得组合模型的运算速度远远快于APSOLSSVM模型的运行速度,并且在分类正确率上也优于R心和APSOLSSVM模型。(3)本文提出了模型组合的一个很好的思路。由于RF模型在0.5的投票率附近区间,模型的误判率较高,因此剥离出该区域范围内的样本,交由APSOLSSVM模型进行预测,采取这种两阶段的模型组合方法,使得组合模型最后的预测结果,与RF模型的预测结果相比有大幅度的改善。综上所述,通过本文实证研究证明了RF和APSOLSSVM的两阶段组合模型不仅在理论上可行,在实证研究中也取得了较佳的分类效果。实证表明:RF-APSOLSSVM组合信用评估模型可以用于个人的信用评估领域中,是一种有效而且新颖的评估方法。
其他文献
大量研究结果表明,烷基烯酮二聚体(AKD)的化学性质,如活性物质的百分比、AKD结构中C16/C18的比例、杂质和催化剂的含量等都会极大地影响其施胶效果,这些可以用AKD留着在纸中
建立同时快速测定改善睡眠类保健食品中违法添加巴比妥、氯氮卓等18种精神药物的超高效液相-二极管阵列(UPLC-DAD)检测方法。样品经氯仿超声提取,浓缩后甲醇转溶处理。采用ZO
有效市场假设EMH认为股票价格能够有效表达所有已有的信息,只有市场上出现新的信息时股票价格才会产生波动,人们费尽心思研究股票价值是徒劳的,资本市场上的投资者只能获得市场
统筹城乡发展是中央提出的科学发展观的重要组成部分,是我党对马克思提出的必须消灭城乡差别、工农差别、体脑力劳动差别观点的继承和发展,是党中央在借鉴世界各国现代化建设经
近年来,无锡市紧紧围绕协调推进“四个全面”战略布局,突出全面从严治党这个主线,以落实管党治党责任为关键,以密切党群关系为核心,以深入实施党建工作创新工程为抓手,切实加
本文通过大豆的总产量、 播种面积、 大豆消费量、 大豆进口量以及大豆出口量和期末库存量这六个因素建立了与大豆的需求成正比,与大豆的供给成反比的大豆供需结构模型,继而
以基于作业的煤炭企业定额制定为切入点,介绍了煤炭企业定额管理对象与核算方法,进而探讨了煤炭企业定额管理责任与奖罚方法。在此基础上,研究了定额管理的组织、制度与文化,
分别采用刮刀、薄膜和帘式涂布技术对定量为38g/m2的低定量涂布原纸进行双面涂布中试,比较了它们对光学性质、表面粗糙度、涂布量分布和压缩均匀性等纸张表面特性的影响。研
英国科学家最近的一项研究结果显示:女性的腿部长短直接关系到其心脏健康,腿长的女性不容易患慢性心脏病。来自英国布里斯托尔大学医学研究室的科学家们对4000名年龄在60~79岁
德国Monforts公司展示了一台全新设计适用于机织物(Mon-fortex)和针织物(Toptex)的机械抽缩式预缩整理机,提供了更高的最大收缩率和更快的生产速度,可自动打磨橡胶毯,减少了