论文部分内容阅读
随机森林(RF)算法凭借其较好的预测精度、强抗噪力、可调参数少、适应力强以及可避免过拟合现象等优点,被广泛应用于各领域.但随着RF算法的应用越来越广泛,其弊端也逐渐凸显,主要有:对数据集的平衡性敏感、分类精度不够高以及数据量比较大时,其分类效率不高.针对该算法的以上弊端,本文提出了一些改进算法,核心思想为:改进非平衡数据集平衡方法.因为SMOTE算法忽略了原始数据集的分布特点而导致数据集失去其实际意义.故文章提出一种HD_SMOTE算法,在最大可能保存原始数据集分布信息的基础上改善数据集的不平衡性.并且用该算法将来自UCI数据库的9种不平衡数据集进行平衡化操作,然后用随机森林分类器进行分类,结果证明,该算法能够有效提高随机森林算法对不平衡数据集的分类性能.随机森林自身构建过程改进.针对随机森林算法分类性能不高的问题,文章对其进行几点改进.1)改进采样方法.随机森林采用的Bagging抽样方法过于随机,可能会导致所抽取样本数据重叠和冗余,造成分类器训练得出的模型的有效性降低.故文章依据分组抽样思想提出一种C_Bootstrap抽样方法,该方法能够确保在分类问题中所抽取的样本均匀的分布在各个类别中,从而尽可能地保存了原始数据集的数据结构;2)特征属性选择方法改进.在选择特征属性集合时,随机森林采用完全随机选择方法会导致分类器性能降低,故文章结合因子分析法提出一种分组特征选择方法,能够有效的降低属性冗余,提高算法分类性能;3)节点分裂算法改进.原始随机森林算法在节点分裂时所使用的衡量指标是只适用于二分类问题的Gini系数.但信息增益率(GainRatio)却可适用于多分类问题,而这两种算法都是以信息论为基础的,故文章将这两种指标组合形成节点分裂混合算法,从而提高随机森林算法的分类性能;4)分类表决方法改进.文章引入一种加权集成的投票法则参与最终决策,最后以置信度最大的结果作为输出.将以上几点改进综合提出一种综合改进的随机森林算法(Comprehensive improved random forest algorithm,即CIRF算法),并且在Blood等5种UCI数据集上进行性能验证.结果显示,CIRF算法的性能远远优于原始RF算法的性能.最后将文章所提的数据平衡化技术与CIRF算法相结合,应用于中国财政风险分类中,结果显示,该算法有实际的应用意义.