论文部分内容阅读
在Web文本分类中当类别数量庞大或者类别复杂情况下,层次分类是一种有效的分类方法,但其不足之一是在大类正确划分的前提下,由于子类之间存在较多共性,导致分类精度下降.而层次结构本质决定了同一大类下的子类存在特征交叉现象,针对这一局限性,结合KNN的优越性能,提出了一种结合层次结构和KNN的Web文本分类方法.该方法通过建立层次结构模型(树形结构),分类时先从层次结构模型获得相似度最大的k0个类别,然后在kO个类别训练文档中抽取部分代表样本采用KNN算法.最后由一种改进的相似度计算方法决定最终的所属类别.实验