论文部分内容阅读
串行的朴素贝叶斯分类算法对大数据分类需较长的执行时间,针对这个问题,设计了一种基于Hadoop的并行朴素贝叶斯分类算法.并行算法使用一个HapReduce任务对训练子集并行计算各个类别的先验概率和每个属性值的条件概率,从而实现了分类模型的构造,使用一个MapReduce任务对测试子集并行计算被正确分类的样本数,输出分类器的分类准确率.使用大数据集测试了串行算法与并行算法的运行时间,结果表明并行算法具有更高的执行效率.