论文部分内容阅读
查找相似文挡在文本挖掘和文档管理中具有重要的地位。一般的文本聚类都关注单分类情况,本文目的是研究文档隶属于多个分类的情况。本文中的相似文档查找系统是基于模糊分类技术,它可以处理多分类问题。其处理方法包含两个阶段,第一个阶段是找到属于多分类的文档;第二个阶段是确定这些文档所属的多分类。为此本文分别提出了基于α阀值的模糊分类方法(α-FSCM)和多分类向量方法(MCVM)。实验结果证明本系统能有效区分多分类文档,并准确找到所属多类别,其准确性和效率高于传统的方法。