论文部分内容阅读
随机森林是一种典型的组合分类器,通过引入随机性构造出决策树的集合,克服了决策树容易过拟合、局部收敛的问题。由于随机森林算法很好的解决了单分类器在性能上的瓶颈,因此逐渐被广泛应用。但是随机森林算法也存在不足,某些方面有待完善,本文就特征选择和处理非平衡数据集两个方面对其进行优化,还在Hadoop平台上实现了随机森林算法对文本的并行分类,主要研究成果包括以下几个方面:(1)在特征选择方面,本文在随机森林内置的特征选择方法上做出改进,提出了一种新的特征选择算法。该算法首先在分布式平台上使用MapReduce构建随机森林,其次通过改变袋外数据的每一列特征获取每一棵决策树对应的特征重要性度量及权重,然后运用两者的加权求和求得特征重要性排序,其中决策树的权重取决于决策树与集体随机森林预测的一致性。最后,在特征重要性排序的基础上引入了一定的随机性,确保了每棵树的强度,又减少了树与树间的相关性。实验结果表明:相比于传统单机模式下的随机森林特征选择算法,该算法在分类的准确性和运行效率上效果良好。(2)在数据预处理方面,对数据集类不平衡问题进行研究,并描述了几种解决方法,根据典型的SMOTE算法进行改进,提出了一种新的M3C-SMOTE算法,该方法首先结合K-means聚类算法找出样本集的三大簇心,进而求得重心,然后以该重心为中心“人造”新样本,很好的解决了SMOTE算法存在的盲目性、边缘化问题。最后对该方法和前面这些SMOTE算法做了对比实验,实验结果表明该方法对数据集预处理之后,随机森林算法的分类性能得到改善。(3)文本分类过程中的文本预处理、文本特征选择、文本向量化、训练、分类等需要进行大量的统计与计算,对此本文使用Mapreduce分布式计算框架对这些过程均进行了详细具体的并行计算与实现,然后经过加速比对比实验,验证了分布式模式下海量文本并行分类的高效性。最后在文本分类过程中引入了前面关于随机森林的特征选择算法,进一步提升了文本分类的准确性。