基于BLB方法的随机森林算法研究及应用

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:liulg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随机森林是以决策树作为基分类器的集成分类算法,它是将Bagging算法与随机子空间结合起来进行分类的方法,广泛应用于社会生活的诸多领域来解决各种分类问题。虽然许多学者对随机森林进行了广泛的研究,并取得了显著成果,但随机森林分类算法仍然存在一些局限和不足,在其理论和应用方面有待进一步研究。本文主要研究了一种新的基于Bag of Little Bootstraps (BLB)的随机森林算法,并将该算法应用于文本分类中。文章共有五部分。第一章 主要介绍了论文的研究背景、意义以及国内外研究现状,并提出了本文的主要研究工作。第二章 预备知识,主要对决策树、随机森林等基本概念和相关分类方法做了简单介绍,并简要介绍了文本分类方法。第三章 研究分析现有随机森林分类算法,针对其不足,提出基于BLB的随机森林算法。在该算法中首次将BLB方法应用于随机森林的生成过程中,使得该算法特别适用于大数据集的分类,解决了原有算法运行效率不足的问题;为预防随机森林算法出现的近似平局现象,在该算法中,对决策树的加权方式做了进一步改进。此外,将本章提出的算法应用于文本分类中,建立了基于BLB的随机森林文本分类模型,并给出了相应算法。第四章 针对文本分类做了数值试验,与原有算法的数值实验结果做了比较,结果表明了本文提出的算法在计算效率和分类准确度上都有一定提高,并较为有效解决了原有方法出现的近似平局现象。在改进的随机森林算法与Rocchio文本分类算法、神经网络文本分类算法这两种运用比较广泛的文本分类算法的对比实验中,实验结果表明改进的随机森林文本分类算法比其余两种文本分类算法的分类性能高,并且在高维度文本中也能保持其良好的分类性能。第五章 总结与展望。进一步总结了本文所做的工作,提出了本文研究仍需解决的问题。
其他文献
改革开放以来,我国的国民经济快速发展,综合国力显著提高,与发达国家的差距越来越小。但是在发展的过程中,还存在着一些问题尚未解决,其中一个问题就是区域之间发展不均衡现象日愈
亿美博科技致力于以工业4.0共性基础器件之数字液压为核心,为各类机械和系统设备提供安全、精准、高效的数字传动与智能化控制解决方案。公司融合众多行业的应用经验,研发创
现有的直觉模糊C-均值算法(IFCM)往往忽略了犹豫度在直觉模糊划分中的作用,在算法中没有给出一个确定划分矩阵中犹豫度的准则,所得到算法并不能真正解决被分类对象矩阵、聚类
种群生态学是研究种群与环境之间定量关系的重要手段,动力学模型是刻画种群变化规律的重要工具,能解释和预测种群动力学的渐近性质.Lotka-Volterra模型的引入为生物数学研究开
期刊
随机最大值原理是研究最优控制问题的一种有效方法.随着平均场倒向随机微分方程的引入,平均场模型的随机最大值原理已经兴起.基于此,本文主要研究平均场随机系统的最优控制问
A new general robust fuzzy approach was presented to control the position and the attitude of unmanned flying vehicles(UFVs). Control of these vehicles was chal
偏微分方程理论是数学研究的重要分支之一,而且在数学物理及其他众多学科之中具有广泛的应用背景。本文主要研究了几类非局部偏微分方程解的渐近性态及其应用。  首先,我们介