论文部分内容阅读
在当前信息快速膨胀的时代,人工对文本信息进行分类是一种效率十分低下的工作。文本自动分类技术利用计算机强大的自动处理功能,极大的提高了工作的效率。目前,比较成熟的分类器有Rocchie算法,Na(?)ve Bayes算法,KNN算法,SVM算法等。 但是以上这些算法的本质都是二元分类算法,而在文本分类中,我们往往需要处理多类分类问题。在应对多类分类任务时,现今通常的解决方法是通过构造多个二元分类器,并将他们组合起来形成一个多类分类器。组合的方法有一对多(One-Against-Rest),一对一(One-Against-One)等等。但是这些方法的缺点在于首先忽视了文档的多类属性,而且需要训练大量的二元分类器,对于K类的多类问题,One-Against-Rest方法需要K个二元分类器,One-Against-One方法需要((?))个二元分类器。用每个二元分类器分类后将结果进行组合,最终确定输出。 针对多类分类算法的复杂性,我们在基于潜在语义分类模型的基础上,提出了基于类信息的潜在语义多类分类算法(Multivariate Partial Least-square Classifition:MPLC)。它通过将文档的多类标签属性表示成为一个文档类别信息矩阵,进行潜在语义索引,利用偏最小二乘法提取词和类别之间的潜在语义对,利用潜在语义对来对文本进行分类。通过建立类别信息矩阵,首先解决了文档的多类属性,同时避免了同时训练多个二元分类器的复杂过程。试验结果表明,我们的算法具有较好的稳定性和精度。其性能比目前表现较好的KNN、SVM算法都有所提高。 本文创新之处包括: 1.利用训练文档的类信息对文本分类模型进行建模,提取对分类贡献较大的特征。 2.基于潜在语义模型,提出一个新的多类分类算法MPLC; 3.利用偏最小二乘回归,避免了奇异值分解算法的繁重计算。