随机森林算法综合改进研究

来源 :兰州交通大学 | 被引量 : 2次 | 上传用户:loveqwg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随机森林(RF)算法凭借其较好的预测精度、强抗噪力、可调参数少、适应力强以及可避免过拟合现象等优点,被广泛应用于各领域.但随着RF算法的应用越来越广泛,其弊端也逐渐凸显,主要有:对数据集的平衡性敏感、分类精度不够高以及数据量比较大时,其分类效率不高.针对该算法的以上弊端,本文提出了一些改进算法,核心思想为:改进非平衡数据集平衡方法.因为SMOTE算法忽略了原始数据集的分布特点而导致数据集失去其实际意义.故文章提出一种HD_SMOTE算法,在最大可能保存原始数据集分布信息的基础上改善数据集的不平衡性.并且用该算法将来自UCI数据库的9种不平衡数据集进行平衡化操作,然后用随机森林分类器进行分类,结果证明,该算法能够有效提高随机森林算法对不平衡数据集的分类性能.随机森林自身构建过程改进.针对随机森林算法分类性能不高的问题,文章对其进行几点改进.1)改进采样方法.随机森林采用的Bagging抽样方法过于随机,可能会导致所抽取样本数据重叠和冗余,造成分类器训练得出的模型的有效性降低.故文章依据分组抽样思想提出一种C_Bootstrap抽样方法,该方法能够确保在分类问题中所抽取的样本均匀的分布在各个类别中,从而尽可能地保存了原始数据集的数据结构;2)特征属性选择方法改进.在选择特征属性集合时,随机森林采用完全随机选择方法会导致分类器性能降低,故文章结合因子分析法提出一种分组特征选择方法,能够有效的降低属性冗余,提高算法分类性能;3)节点分裂算法改进.原始随机森林算法在节点分裂时所使用的衡量指标是只适用于二分类问题的Gini系数.但信息增益率(GainRatio)却可适用于多分类问题,而这两种算法都是以信息论为基础的,故文章将这两种指标组合形成节点分裂混合算法,从而提高随机森林算法的分类性能;4)分类表决方法改进.文章引入一种加权集成的投票法则参与最终决策,最后以置信度最大的结果作为输出.将以上几点改进综合提出一种综合改进的随机森林算法(Comprehensive improved random forest algorithm,即CIRF算法),并且在Blood等5种UCI数据集上进行性能验证.结果显示,CIRF算法的性能远远优于原始RF算法的性能.最后将文章所提的数据平衡化技术与CIRF算法相结合,应用于中国财政风险分类中,结果显示,该算法有实际的应用意义.
其他文献
<正>此方黄河石构图十分精到:人物主体在右侧偏下方,左侧大片留白:米黄色的底色上,人物整体为绛红色,十分喜气少见;头部和脚部为黑色,俏色恰到好处;整体形象为一个探身抓鬼的
期刊
目的:探讨导致糖尿病患者肝损害的相关因素。方法:收治糖尿病患者694例,对肝损害情况进行了临床分析。结果:694例糖尿病患者符合糖尿病性肝损害标准157例(22.6%);肝功能异常
利用PCR扩增了伪狂犬病病毒Min-A株gD、gE基因,扩增产物克隆于pGEM-TEasy载体。将gD、gE基因连接于质粒pUC18获得pUgDgE,缺失质粒pUgDgE的BamHⅠ和BstEⅡ位点间391bp的片段。在
依据一维混沌时间序列进行相空间重构涉及到延迟时间τ和嵌入维数m的确定。确定延迟时间是进行混沌分析的重要一步,将直接影响重构因子的确定。目前选择重构延迟时间的方法有
基于增强现实(AR)技术开发了一款机械原理实验教学辅助系统。该系统包括实验基础理论讲解模块、模型虚拟实验模块和机构运动仿真实验模块,并被打包为手机应用的形式。学生可
目前,我们的语文课堂教学仍然存在"低效高负"的问题.提高教学质量是当前深化课程改革的根本要求,而提高课堂教学效率则是提高教学质量的关键所在.本文主要从以下几个方面来阐
作为中华文明史上最有影响的历史人物之一 ,舜帝躬践孝悌德行 ,首倡伦理道德 ,可谓中华民族伦理道德的始祖 ;同时 ,舜帝又施政有方 ,推行五教、分职善任、稳定农业、匡划九州
本文结合高中历史新课程体系特点,以“工农武装割据”内容为例,探讨了重新整合教材内容和课堂设计问题,主张把握整体特征,加强学习内容整合,重视课堂讨论和总结,重在指导学生
分析跨栏跑学习过程中产生恐惧心理的原因,指出恐惧心理障碍对跨栏技术影响的主要表现,给出消除紧张、恐惧和胆怯等恐惧心理障碍的对策.