多种分类模型在个人信用评估中的应用

来源 :重庆大学 | 被引量 : 0次 | 上传用户:shuang901014
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息科技高速发展,互联网与传统行业相继结合,类似于互联网金融等新兴概念正在颠覆传统金融业。在个人信用评估领域,由于数据挖掘技术的快速发展,已具有完全不同的信用分析方式,如机器学习、数据挖掘等。论文研究了其中的三种分类模型:logistic模型、决策树模型、随机森林模型在个人信用评估中的应用。Logistic回归模型是个人信用评级中应用最广泛的方法,也是其他方法的分类能力基准。论文选用UCL数据库中德国某银行个人信用数据,采用logistic模型对其进行客户分类,分类过程中采用变量筛选前后对比、筛选变量时采用Enter法、Backwards法来得出分类结果。决策树模型是机器学习中最具有影响力的方法,具有易于解释、识别效率高、产生判别规则等优势。论文将决策树模型用于银行客户分类,采用C5.0算法进行分类,分类过程中引入树的后剪枝、误判成本矩阵、boosting算法提高模型适用性,同时进行变量筛选对比来得出分类结果。随机森林模型是多颗决策树的集成,论文使用随机森林分类银行客户,主要在于对比决策树及随机森林的分类效果,通过调整各类参数,引入代价敏感学习建立加权随机森林模型,并对各变量重要性进行排序。最后,论文对以上三种分类模型进行评价,通过ROC曲线、AUC值、Lift曲线等标准以及各模型的泛化误差估计,基于论文数据得出结论:随机森林模型具有最低的总错误率;决策树C5.0具有最低的A类错误率,但其B类错误率较高;没有一种模型在各类错误率均低于其他模型。论文在建立三种模型的过程中,将数据分为训练数据、测试数据、验证数据,每一个参数均通过不断测试以便取得最优结果,先对每个模型进行分析对比,再对三个模型进行对比,分类评价采用准确率和ROC曲线等指标综合评价。这种方式更大限度确保模型对于实际数据的可应用性,因此对于实际分类需求上具有一定的实践参考价值。
其他文献
2014年高考在万千学子和社会各界的期待中悄然落下帷幕,世事轮回,2015届的同学们又将扬帆启程。作为学生的领路人——高三任救老师,应以2014年高考试题为风向标,分析试题特点,探寻
<正>本文从安藤忠雄对人与自然互动关系这一层面来进行分析理解,通过对安藤忠雄的建筑作品"海滨小屋"进行具体的解析,可以清晰的看到关于人与自然的互动关系所体现出的东方哲
概率在近年的高考中占有一定的比例,要充分注意一些重要概念的实际意义,理解概率处理问题的基本思想和方法(观察与试验、分析与综合、一般化与特殊化).本文略举数例对六种题型作一
经过改革开放三十余年的持续发展,我国的国民经济已经取得了举世瞩目的成就,成为仅次于美国的第二大经济体。但相比于其他发达国家,我国的资本市场发展依旧相对落后。众所周
一、掌握简单句的五种基本句型基础写作由于内容是被规定了的,发挥的空间不大,得分点主要落在句型上。写出好句型的第一步就是要掌握简单句的五个基本句型。
进入21世纪以来,随着我国住房制度改革的不断深化以及房地产业的迅猛发展,长沙房地产业经历了一个从无到有、不断壮大的发展历程。与此同时,可持续发展理念和绿色消费观念正
翻开我省实施新课程五年来的高考政治试卷,不乏有精彩的试题,但2011年高考政治试卷在广大考生普遍认为较难时,却给我们留下很多启示。与往年试题相比,今年试题更加全面体现新课程
人类已经进入21世纪,随着社会的发展,现代科学与管理技术的提高,信息量越来越大,各类管理信息趋于多元化、复杂化,人类对信息的处理和管理工作也就变的更加重要。随着公司业
<正>防伪纸一般采用水印、安全线、防伪圆片和防伪纤维等技术。就防伪纤维而言,一般采用彩色的植物纤维、动物纤维、化学纤维、有色或无色的荧光纤维,通过识别纸张中纤维的存
曹禺的《日出》不但在创作思想上比前更趋进步,而且在艺术表达上提出了“用多少人生的零碎来阐明一个观念”的“试探一次新路”的课题。实践证明这试探是成功的。本文以《日