论文部分内容阅读
E研究中学科交叉广泛存在,因此对多学科的电子文献进行自动分类非常必要。针对E研究中的电子文献特征维数较高的特点,以上海高校比较语言学E-研究院为例,提出了一种可逐层降低分类难度、分而治之的层次化自动分类方法。该方法首先利用不需要矩阵运算的几何分类算法对文本向量进行初步分类;然后,利用fisher的线性判别方法将向量投影一维特征空间;最后,在一维空间中运用NBayes决策进行平均错误率最小的文献分类。实验结果表明该分类方法具有较好的精确性和速度:在闭集测试和开集测试中,均获得了较高的分类准确率、召回率