论文部分内容阅读
文本分类是数据挖掘与信息检索领域的热点话题,近年来迅速发展。基于质心的方法是一种建模迅速且效果较好的文本分类方法,许多学者对该方法进行了深入研究并提出改进策略,不断提高算法效果。提出一种新的动态调整质心位置算法,该算法根据训练集中的每个样本文本动态的调整质心位置。并且针对海量数据处理瓶颈,运用当前两种并行计算框架MapReduce和BSP,提出了算法的并行策略。通过与其它算法在5种不同数据集中的对比实验,证明该方法确有较准确的分类效果。