论文部分内容阅读
本文以比较购物搜索中的商品数据自动分类为应用背景,探讨短文本数据的分类问题,比较了常用的文本分类(Text Categorization)算法的特点,在此基础上提出k—NN与NB相结合的多分类器方案,对于NB算法分类不可信的情况下改用k—NN算法进行再次分类,并充分利用NB的中间结果供k—NN剪枝时作参考。实验数据表明该方法在与NB相近的时间复杂度下可明显地提高短文本分类的正确率和召回率,达到实际应用的要求。