论文部分内容阅读
随着科学技术的飞速发展,经济全球化的快速蔓延,如何进行有效的信用风险评估是当今金融领域的重要问题。准确的风险评估在银行贷款中尤为重要,甚至对预测违约概率一个小的改进都可以使银行获得更多的额外利润。然而,在银行大量保有的客户数据库中,银行的工作人员难以对这些数据进行有效的分析与利用。而数据挖掘技术对于寻求银行现有业务数据中的规律,开发银行决策支持系统正好提供了有力的支持。面临大量的数据、较高的维度,为了保障数据挖掘的高效性,我们需在原始数据输入之前进行特殊处理以保证数据挖掘算法的良好性能。而流形学习作为一种降维的机器学习方法,正好可以满足降维这一需求。鉴于此,本文提出了一个基于流形学习和数据挖掘技术的混合模型来进行信用评价研究。本研究提出的基于流形学习的信用评价模型如下:(1)对抽样选取的250家A股上市公司过去的非线性财务数据进行Z-score规范化数据预处理。(2)使用流形学习典型算法中的等距映射(ISOMAP)对财务数据进行降维,即特征提取。(3)将提取的特征数据输入SVM进行分类和预测企业信用风险。为了证明本文提出模型的有效性,我们将“PCA+SVM”、“LLE+SVM”,“SVM”的性能与本文提出的混合模型“ISOMAP+SVM”做出比较。(4)在分类的基础上进行聚类,得出具体上市公司分类并划分信用等级以帮助银行制定相应的贷款策略。本文将定性分析和定量分析相结合,采用Matlab R2012a对财务数据进行处理后,得到以下几个重要结论:(1)经过Z-score规范化方法进行数据预处理得到的结果明显优于没有规范化得到的结果。数据是否进行规范化预处理对后续数据处理影响很大。(2)与“PCA+SVM”和“LLE+SVM”相比,本研究所提出的基于流形学习算法中的ISOMAP的信用评价模型不仅有最好的分类精度,使第二类错误的发生率最低,并且与聚类分析相结合提高了分类准确性。此模型能够实现一种改进的预测精度,提高了上市公司的信用分类准确性。(3)在数据降维后,基于二分类的基础上使用k-means算法将250家上市公司成功分类并聚类成了7类,这有助于对上市企业信用风险的评价、划分信用等级并制定相应的信贷策略。(4)使用流形学习和PCA对非线性数据进行降维,均可以提高预测和聚类的准确度,降低信用分类成本。但ISOMAP和LLE对非线性数据的降维性能比PCA略胜一筹。