论文部分内容阅读
随机森林是以决策树作为基分类器的集成分类算法,它是将Bagging算法与随机子空间结合起来进行分类的方法,广泛应用于社会生活的诸多领域来解决各种分类问题。虽然许多学者对随机森林进行了广泛的研究,并取得了显著成果,但随机森林分类算法仍然存在一些局限和不足,在其理论和应用方面有待进一步研究。本文主要研究了一种新的基于Bag of Little Bootstraps (BLB)的随机森林算法,并将该算法应用于文本分类中。文章共有五部分。第一章 主要介绍了论文的研究背景、意义以及国内外研究现状,并提出了本文的主要研究工作。第二章 预备知识,主要对决策树、随机森林等基本概念和相关分类方法做了简单介绍,并简要介绍了文本分类方法。第三章 研究分析现有随机森林分类算法,针对其不足,提出基于BLB的随机森林算法。在该算法中首次将BLB方法应用于随机森林的生成过程中,使得该算法特别适用于大数据集的分类,解决了原有算法运行效率不足的问题;为预防随机森林算法出现的近似平局现象,在该算法中,对决策树的加权方式做了进一步改进。此外,将本章提出的算法应用于文本分类中,建立了基于BLB的随机森林文本分类模型,并给出了相应算法。第四章 针对文本分类做了数值试验,与原有算法的数值实验结果做了比较,结果表明了本文提出的算法在计算效率和分类准确度上都有一定提高,并较为有效解决了原有方法出现的近似平局现象。在改进的随机森林算法与Rocchio文本分类算法、神经网络文本分类算法这两种运用比较广泛的文本分类算法的对比实验中,实验结果表明改进的随机森林文本分类算法比其余两种文本分类算法的分类性能高,并且在高维度文本中也能保持其良好的分类性能。第五章 总结与展望。进一步总结了本文所做的工作,提出了本文研究仍需解决的问题。