论文部分内容阅读
针对当前需要对海量的文本数据进行分类和用于训练的带标记的文本数据非常匮乏这两个问题,结合半监督的朴素贝叶斯分类算法和Map—Reduce编程模型,提出了一种新型的并行化的半监督朴素贝叶斯分类(parallelized semi—supervised Naive Bayes,PSNB)算法。通过实验可以看出,PSNB算法不仅可以高效地处理海量的文本数据,还可以有效地利用无标记的文本数据来提高分类器准确率。