论文部分内容阅读
信用在经济生活中有着十分重要的地位,随着中国经济的发展,居民承担金融风险的能力增强,个人消费信贷进入了一个蓬勃发展的时期,信用即是金钱的时代已经到来.另一方面,由于中国庞大的人口基数,中国消费者的信用数据也在以爆炸式的方式增长,运用统计方法并结合在许多领域发挥重要作用的数据挖掘技术进行个人信用评级的前提已经成熟.在信用评级领域,传统的定量分析方法不仅效率十分低下,而且很多情况下依赖评级者的主观判断,信用记分卡模型的引入有效改变了这一状况,信用申请者的特征得到量化,进而使得一系列的客观标准建立起来,信用评级的客观性和效率大大提高.但信用评级问题依然存在很多困难,申请者是否会违约,不仅仅取决于还款能力,还会受到还款意愿的影响,而还款意愿往往无法量化,这导致了在进行信用评级时普遍存在错误率较大的问题.支持向量机(SVM)是在上世纪九十年代由Vapnic提出的一种机器学习方法,它以统计学习理论为基础,不仅具有优秀的小样本学习能力,而且在解决非线性、高维度、过拟合等机器学习上的传统难题方面效果显著.集成学习则通过一定的算法训练产生多个具有差异性的子学习器,并通过特定的方式将子学习器的决策进行合成,以做出最终决策.集成学习提高了学习器的泛化能力,往往可以取得比单一学习器更好的结果.本文选用台湾信用数据,首先以较早出现的判别分析方法和Logistics模型与支持向量机方法进行实证比较,就总体正确率而言,径向基核函数支持向量机正确率最高,判别分析法正确率最低,但判别分析法的错误主要是将信用好的样本误分为信用差的样本,这说明判别分析法在实际应用中依然有一定的价值.接着本文尝试采用21折抽样和随机抽样的方法对径向基核函数支持向量机进行集成学习,取得了一定的改进,但是我们的改进十分有限.一直以来,信用评级问题都是分类问题中的难题,要想找到理想的方法依然有很长的路要走。