论文部分内容阅读
随着信息化的高速发展,世界变成了信息的海洋,如何从大量信息中迅速有效地提取所需信息成为急待解决的问题。由于分类可以在较大的程度上解决信息杂乱的现象,方便用户准确地定位所需的信息和分流信息,因此,对文本分类领域的研究再一次引起人们的关注。 文本分类是指根据文本的内容自动确定文本类别的过程。随着蒙文国际标准编码的正式发布,蒙文信息的自动分类问题就成了一项重要的研究课题。由于蒙文的词法结构和语法结构均与英文和中文存在较大的差异,不能照搬国外的研究成果,因此有必要研究蒙文自己的分类系统。本文的工作是设计并实现一个蒙文文本自动分类器。 本文介绍了基于主动学习SVM的蒙文文本分类系统的设计思想。从蒙文语言学的角度对蒙文分析后,指出了蒙文中各种词性的词语在蒙文特征提取中具有不同的重要性,并给出了蒙文词干提取的方法;在充分分析了SVM的理论基础之后,对SVM算法进行了改进,即用主动学习方法处理SVM分类器的训练文本;在WindowsXP/VC6.0环境下实现了基于主动学习SVM的蒙文文本多类别分类原型系统,并对其进行了分析。