论文部分内容阅读
信用风险又叫违约风险,是银行三大风险之一,也是银行面临的最主要风险。评估信用风险是银行风险管理的关键过程,银行可以基于评估结果采取相应的规避,转移,对冲风险的措施,避免风险进一步恶化为损失。随着信息技术的发展,银行信用风险评估方法中也逐渐引入了信息科学的概念,不再是以往单纯的数理统计方法,而将数据挖掘和知识发现等技术也用到风险评估系统中。数据挖掘技术拓展了概率论和数理统计,将数学与计算机科学较好地结合在一起。贝叶斯网络是可用于分类及预测的数据挖掘技术,借助概率论中的条件概率和计算机强大的计算能力,以直观的图形方式向人们展示结点间的全局依赖关系。因为贝叶斯网络是个“白箱”模型,因而它具有很好的解释性,便于被人们接受。对贝叶斯网络的研究涉及结构学习,参数学习和贝叶斯推理方法,内容广泛而充实,因而本文系统地介绍了贝叶斯网络学习和推理过程中一些常用的技术和方法,包括贝叶斯评分,似然评分,碰撞识别定向,Gibbs采样等。数据挖掘系统是以数据挖掘技术为核心,兼有数据预处理模块,可视化模块的应用系统,本文以贝叶斯网络模型为核心,设计一个可计算客户违约概率的数据挖掘系统,详细设计了数据预处理模块。本文首先基于粗糙集理论得到经过约简的最小指标集,从而降低贝叶斯网络学习的时间复杂度和准确度。然后再采用贪婪搜索方法搜索后验概率最大的贝叶斯网络模型,并采用EM方法学习缺失数据集的结点参数表,得到能反映客户违约概率的贝叶斯网络PDBN。在PDBN上,采用精确推理方法,得到测试集中每个客户的违约概率。实际应用中,概率值往往不够简洁,因而本文进一步基于违约概率对客户分类,并与违约风险评估领域中常见的Logistic回归模型和神经网络方法对比。为了评估分类错误对银行收益的影响,本文还考虑了损失矩阵。通过评估可以发现贝叶斯网的准确性更高,解释性更好。