论文部分内容阅读
针对传统文本分类算法在面对日益增多的海量文本数据时效率低下的问题,论文在Spark计算框架上设计并实现了一种并行化朴素贝叶斯文本分类器,并着重介绍了基于Spark计算框架的文本分类实现过程。实验阶段,分别在单机、Map Reduce和Spark三种不同的计算框架下测试了文本分类的效率,并使用控制变量的方法在Spark计算框架下设计对照实验。实验证明,Spark计算框架下的朴素贝叶斯算法在面对海量文本分类时有着较高的处理效率。