基于SVM的非均衡数据分类规则提取技术及其在商业银行破产预测中的应用

来源 :浙江大学 | 被引量 : 0次 | 上传用户:ebayka
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,非均衡数据分类预测问题是数据挖掘和模式识别领域的重要研究课题,一般具有数据分布非均衡、数据数量非均衡、数据属性特征非均衡等特点的数据都可以称之为非均衡数据。处理非均衡数据分类预测问题的一般方法主要有数据层面方法、算法层面方法、修改评价标准等,数据层面方法主要有欠抽样、过抽样和混合抽样等,算法层面方法主要有单类学习、代价敏感学习、提升集成算法、两阶段规则归纳、核方法、主动学习、特征选择等,修改评价指标主要指对F-Measure、G-Mean, AUC-ROC等原有指标进行加权和融合。支持向量机(SVM)是另一种常用来解决此问题的方法,SVM模型通常被认为是一种难以理解的黑盒模型,很难通过核函数和相应参数来形象描述获得的SVM模型,规则提取技术得到的规则集易于理解,可以用来解释SVM模型。为了解决非均衡数据分类的可理解性问题,本论文提出了一种新的基于主动学习过抽样的规则提取算法—-mPPALBA,通过Ripley数据集、9个benchmark数据集和美国商业银行1996年3月至2013年6月期间财务数据上的仿真实验,验证了mPPALBA算法的有效性和优越性。在上述研究结果的基础上,论文提出了商业银行破产数据挖掘方法论,为以后的相关研究提供参考。论文的主要创新成果如下,1、针对非均衡数据分类方法预测正类精确度不高且SVM具有黑盒特性,提出一种新的主动学习过抽样规则提取算法—-mPPALBA,算法结合了主动学习方法和基于正类支持向量点的过抽样方法。算法以正类支持向量点为基础,在其周围一定距离内随机生成一些新的正类样本点,然后使用逻辑模型树(LMT)算法对重新标识的训练集和新生成的正类样本点规则提取,得到易于理解的规则集。基于F值、G值和AUC值3种不同的评价指标,mPPALBA算法在Ripley数据集和9个benchmark数据集上进行了实验验证,并与基于学习的规则提取算法、基于主动学习的算法、SMOTE算法、BSMOTE算法等进行了详细的比较和分析,实验结果表明mPPALBA算法在非均衡数据分类中对正类样本具有较高的预测准确率,同时能确保负类样本的准确率。2、针对商业银行破产分类预测问题的特点,结合CAMELS评级体系和银行业专家经验,论文对来自美国芝加哥联邦储备银行[1](Federal Reserve Bank ofChicago)网站的美国商业银行1996年3月至2013年6月期间财务数据进行了mPPALBA算法实验,并与SMOTE、BSMOTE、AdaSyn三种通用的过抽样算法进行比较,发现1Year模型和2Y.ear模型对正类预测准确率的优越性不明显。在此基础上,本论文提出了一种结合SVM-RFE特征选择方法的主动学习过抽样算法—-SVM-RFE-mPPALBA,实验结果证明该算法对美国商业银行破产预测具有较高的破产预测准确率,1Quar模型和1Year要比进行对比的其它方法正类预测精度高。3、结合数据挖掘一般方法论和商业银行破产预测特点,论文提出了商业银行破产预测数据挖掘方法论,为以后的商业银行破产数据挖掘项目研究提供指导和参考。
其他文献
卵巢癌是妇科最常见的恶性肿瘤之一,目前其治疗采用手术、化疗、放射治疗等综合治疗措施,但治愈率仍徘徊在25%~30%的较低水平。研究认为,卵巢癌的发生是一系列的基因改变积累
背景和目的 食管癌是常见的恶性肿瘤,死亡率高。手术作为目前治疗食管癌的主要措施,经一个多世纪以来的发展已日趋成熟。但术后胃食管反流发生率仍较高,文献报道达71.6%,严重影响
目的为了对血液病患者疑难交叉配血原因进行探究。方法方便抽取从2016年5月—2018年5月期间该院中的疑难交叉配血标本516份进行血型鉴定、不规则抗体筛查和鉴定等。之后再根
针对城市发展现状,“十三五”规划提出要将建设海绵城市和水敏型社会纳入我国生态文明发展战略,因此城市可持续水资源管理成为一项核心议题。从解决城市水问题的角度出发,将湿地保护计划纳入城市雨洪管理体系之中,促进湿地向雨洪公园的转变,使城市严峻的环境问题得以缓解。水敏性城市设计(WSUD)理论是由澳大利亚学者最先提出,这是关于重建生态水循环的环境设计理念。多年来经过不同规模项目的实践检验和理论体系完善,W
本文对新环境下冀东地区评剧的传承进行研究,论述评剧在发展传承中的价值体现,以及如何解决冀东评剧面临的重重困难.为使冀东地区评剧重新繁荣,要做的就是更加深入的研究,克
在小学的心理健康教育中,作为主要教育形式的心理活动课,往往除了选择一些团体心理游戏,对其他载体的开发利用做得还比较粗浅,导致学生体验感悟不够,活动形式单一。在此,本人
目的总结肝脏局灶性结节增生的临床表现、影像学特点及治疗方法。方法从北京大学人民医院病案数据库中检索2007年1月至2016年12月期间接受肝脏手术患者的临床病理资料,选取经
克服信道噪声的不利影响一直是通信领域的重要研究内容,伴随着无线通信环境的日益复杂,如何增强淹没在背景噪声中的微弱信号及其特征成为当前研究的热点问题。目前大多数微弱信号特征提取技术主要是基于抑制噪声的理念,但目标特征不可避免地也会受到一定程度的抑制和破坏。随机共振能够利用非线性系统将噪声的部分能量转移到有用信号中,本课题将其应用到非合作通信信号处理领域,旨在实现更为有效的微弱信号增强和特征提取,主要
高淀粉含量的食品,如面包,在储藏期间,会经历一些变化,如水分流失,表皮变硬,面包瓤掉渣等,这些变化影响了面包的结构特性,营养及货架期。食品改良剂,如酶制剂、乳化剂、亲水