论文部分内容阅读
在大数据时代,单分类器技术已经不能满足日益复杂和大量的数据需求;因此多分类器变得更加重要和有效。多分类器的思想就是组合多个单分类器,然后根据多个单分类器的产生的结果进一步得到最终结果。随机森林就是一种多分类器。随机森林算法随机性之一是从整体特征中随机选择一定数量的特征,以尽可能地减少树之间的相关性,但数据中通常存在冗余特征,因此会对随机森林模型的泛化能力造成影响。针对随机森林特征选择时数据集中存在冗余特征的情况,通过对传统随机森林算法的分析,决定采用粗糙集对传统随机森林算法进行优化改进。粗糙集可以简化数据并保留数据的最小知识,同时保留关键信息。粗糙集能对随机森林特征选择时数据集中存在较多冗余特征而影响模型的分类效果的问题进行有效的处理。基于此,本文选择用基于遗传算法的粗糙集属性约简方法对随机森林算法进行优化,在随机森林选取特征之前就剔除掉总体特征中的冗余特征,从而提高随机森林算法的效率。本文完成了以下几个方面的工作:(1)介绍了属性约简研究现状、粗糙集属性约简研究现状和随机森林国内外研究现状;详细介绍了粗糙集基础理论。详细研究了随机森林算法的基本数学概念、性质;对决策树算法进行了详细的研究,介绍了决策树的产生以及ID3、C4.5、CART算法;在构建决策树的基础上,研究了随机森林算法构建过程,对随机森林数据集的产生以及单个决策树的构建以及随机森林算法的执行过程进行了详细的分析。(2)针对随机森林在特征选择时存在冗余特征的问题,将基于遗传算法的粗糙集属性约简方法与随机森林分类思想结合,提出了一种基于遗传算法的粗糙集和随机森林结合的分类预测算法;对基于遗传算法的粗糙集属性约简方法在多个UCI数据集上进行了属性约简,同时与PCA、CHI2在约简后模型分类效果进行了对比实验,选用平均准确率作为客观评价参数,来评价三种不同的约简方法效果。(3)通过编程实现基于遗传算法的粗糙集和随机森林结合的分类预测算法,主要通过与经典的随机森林算法进行比较,在葡萄酒数据集和宫颈癌数据集上测试其效率,选择分类准确率、运行时间、ROC曲线、AUC均值、OOB以及oob_error作为评价指标对其进行综合评价;同时,在多个机器学习数据集上与多种机器学习算法进行对比分析,选择平均准确率作为评价指标,验证了优化后随机森林算法的在分类方面的有效性。本论文在粗糙集和随机森林原理研究的基础上,采用基于遗传算法的粗糙集属性约简方法优化随机森林特征选择,对随机森林的分类效果有较大的提升。因此,基于遗传算法的粗糙集属性约简和随机森林分类相结合的方法,不仅具有一定的方法创新,同时在实际应用中也具有重要价值。