论文部分内容阅读
随着信息技术的发展,网络上数据增长过快,大数据应用日益成为人们关注的焦点。而实际应用产生的数据都呈现高维、不平衡的特征,这些特征对大数据的分类提出了挑战。因此,本课题将类区分度与K-means算法结合,对高维特征进行维度约减,筛选出有效的维度较低的子集以提高分类精度和效率;然后对代价敏感随机森林算法改进以适应不平衡数据分类;最终通过MapReduce思想对代价敏感随机森林算法并行化设计以实现对不平衡大数据的分类研究。首先,针对高维不平衡数据集中特征之间存在冗余,且容易忽略少数类强相关特征的问题。本课题提出一种基于类区分度的高维不平衡特征选择算法,该算法通过K-means进行特征聚类,并计算簇中每个特征的类别区分度,利用类区分度对每个簇中的特征进行重要性排序,由排序结果选择各簇中类别区分度较高的特征构成降维后的特征集,从一定程度上保证少数类强相关特征的个数,达到处理高维特征冗余与特征不平衡的双重效果。本文通过两组高维不平衡文本集,将本算法与信息增益、卡方统计等算法进行实验对比,结果表明:该算法可以有效处理高维数据。其次,针对不平衡数据进行分类时容易偏向多数类而忽略少数类的问题。本课题提出一种基于代价敏感的随机森林分类算法,该算法根据不平衡数据集的实际分布构造代价函数,并将权重距离引入代价函数,然后根据基分类器的性能采取权重投票,提高分类准确率。本文采用六组UCI样本集,将决策树、随机森林、代价敏感随机森林以及本算法进行实验验证。结果表明:该算法能在保证总体分类性能基础上有效提高少数类的分类性能。最后,针对处理不平衡大数据时会受到数据量,运算能力的影响,建模与投票需要花费大量的时间,严重影响分类器的性能。本课题利用MapReduce思想对代价敏感随机森林算法进行并行化设计,在基分类器的建模过程、属性分裂过程、投票过程进行三重并行化设计,加快基分类器建模速度。从而提高代价敏感随机森林在处理不平衡大数据时的分类性能。本次实验选取四组数据集进行实验,实验结果表明:基于MapReduce的随机森林并行化设计算法极大地提高了分类速度,有效处理了不平衡大数据。