论文部分内容阅读
银行的破产特别是大银行的破产有可能导致银行系统危机的出现。由于银行危机会给一国的经济发展带来巨大的损失,甚至导致金融危机,如2008年的雷曼兄弟倒闭所引起的链锁反应;为此,加强对商业银行的监管,特别地妥善处理面临破产的银行,及早采取措施,发出预警,甚至提早关闭面临破产的商业银行,对保障金融秩序,维护经济稳定十分重要。正常的经济环境下,大部分银行都是健康的,只有小部分是有问题即将面临破产的,也就是说银行破产问题是两分类问题,即分为健康的银行和即将面临破产的银行两种。而有问题的银行通常都会在财务数据上有所反映,因此,本文所研究的银行破产问题就是针对财务数据而进行的。而另一方面,健康银行数量远大于面临破产银行,这其实就是一个不平衡分类问题,因此,本次研究的对象就是基于不平衡数据集的银行财务数据破产分类。本文所研究数据为美国芝加哥联邦储备银行(Federal Reserve Bank of Chicago)数据集,均可在网站下载。该数据集包括了大量银行的财务数据,属性量高达数千。直接对这些属性值进行机器学习效率低下,本文的研究主要基于一些财务比率。为了更好的对银行机构进行破产预测,数据挖掘技术因此被引进并对银行财务数据进行挖掘。通过标准化财务数据为机器学习的标准形式,然后进行机器学习和预测测试,以此分析该数据挖掘技术的性能。由于不平衡分类问题的特殊性,目前国内外对此类问题的研究主要集中在以下两个方面:数据处理方法和算法改进方法。数据处理的方法着重于让数据变得平衡,然后再进行机器学习,算法改进的方法通过改变不同类的错分权重来实现。为了能提高银行数据的少数类分类性能,本文分别应用了随机过抽样,随机欠抽样,SMOTE与SVM的结合方法,另一方面,将代价敏感引入SVM,在算法层面和SVM进行结合,以寻求代价最小的分类算法。最后对银行数据进行学习预测,分析比较得出这几种分类算法中最有效的方法。