论文部分内容阅读
目前,非均衡数据分类预测问题是数据挖掘和模式识别领域的重要研究课题,一般具有数据分布非均衡、数据数量非均衡、数据属性特征非均衡等特点的数据都可以称之为非均衡数据。处理非均衡数据分类预测问题的一般方法主要有数据层面方法、算法层面方法、修改评价标准等,数据层面方法主要有欠抽样、过抽样和混合抽样等,算法层面方法主要有单类学习、代价敏感学习、提升集成算法、两阶段规则归纳、核方法、主动学习、特征选择等,修改评价指标主要指对F-Measure、G-Mean, AUC-ROC等原有指标进行加权和融合。支持向量机(SVM)是另一种常用来解决此问题的方法,SVM模型通常被认为是一种难以理解的黑盒模型,很难通过核函数和相应参数来形象描述获得的SVM模型,规则提取技术得到的规则集易于理解,可以用来解释SVM模型。为了解决非均衡数据分类的可理解性问题,本论文提出了一种新的基于主动学习过抽样的规则提取算法—-mPPALBA,通过Ripley数据集、9个benchmark数据集和美国商业银行1996年3月至2013年6月期间财务数据上的仿真实验,验证了mPPALBA算法的有效性和优越性。在上述研究结果的基础上,论文提出了商业银行破产数据挖掘方法论,为以后的相关研究提供参考。论文的主要创新成果如下,1、针对非均衡数据分类方法预测正类精确度不高且SVM具有黑盒特性,提出一种新的主动学习过抽样规则提取算法—-mPPALBA,算法结合了主动学习方法和基于正类支持向量点的过抽样方法。算法以正类支持向量点为基础,在其周围一定距离内随机生成一些新的正类样本点,然后使用逻辑模型树(LMT)算法对重新标识的训练集和新生成的正类样本点规则提取,得到易于理解的规则集。基于F值、G值和AUC值3种不同的评价指标,mPPALBA算法在Ripley数据集和9个benchmark数据集上进行了实验验证,并与基于学习的规则提取算法、基于主动学习的算法、SMOTE算法、BSMOTE算法等进行了详细的比较和分析,实验结果表明mPPALBA算法在非均衡数据分类中对正类样本具有较高的预测准确率,同时能确保负类样本的准确率。2、针对商业银行破产分类预测问题的特点,结合CAMELS评级体系和银行业专家经验,论文对来自美国芝加哥联邦储备银行[1](Federal Reserve Bank ofChicago)网站的美国商业银行1996年3月至2013年6月期间财务数据进行了mPPALBA算法实验,并与SMOTE、BSMOTE、AdaSyn三种通用的过抽样算法进行比较,发现1Year模型和2Y.ear模型对正类预测准确率的优越性不明显。在此基础上,本论文提出了一种结合SVM-RFE特征选择方法的主动学习过抽样算法—-SVM-RFE-mPPALBA,实验结果证明该算法对美国商业银行破产预测具有较高的破产预测准确率,1Quar模型和1Year要比进行对比的其它方法正类预测精度高。3、结合数据挖掘一般方法论和商业银行破产预测特点,论文提出了商业银行破产预测数据挖掘方法论,为以后的商业银行破产数据挖掘项目研究提供指导和参考。