论文部分内容阅读
提出一种应用文奉特征的类别属性进行文本分类过程中的类别噪声裁剪(Eliminating class noise,ECN)的算法.算法通过分析文奉关键特征中蕴含的类别指示信息,主动预测待分类文奉可能归属的类别集,从向减少参与决策的分类器数目,降低分类延迟,提高分类精度.在中、英文测试语料上的实验表明,该算法的F值分别达到0.76与0.93,而且分类器运行效率也有明显提升,整体性能较好.进一步的实验表明,此算法的扩展性能较好,结合一定的反馈学习策略,分类性能可进一步提高,其F值可达到0.806与0.943.