论文部分内容阅读
分类是数据挖掘领域的研究热点之一。在传统的分类学习中,假定每个样本只属于一个类别标签。而在现实应用中,每个样本可以和多个类别标签相关联,例如一篇关于巴西世界杯的新闻报道,可以同时被贴上“运动会”、“足球”和“巴西”等多个标签;根据不同的使用目的,一台电脑可以同时拥有“影音”“科研”和“网上购物”等多个功能,这类问题统称为多标签问题。多标签分类学习已经在文档分类、信息检索和生物信息学等多个领域得到广泛应用。然而,与传统分类学习相比,多标签学习面临更多的挑战。首先,在多标签学习中,标签之间通常不是互相独立的,而是存在相关性。如何度量这种相关性,并利用标签之间的相关性来提高分类器的性能是一个开放问题。其次,与传统的单标签分类相似,多标签学习同样受到高维数据的影响,而且高维性在样本的属性空间和标签空间中同时存在。特别地,随着标签数目的增加,标签变量空间一般比较稀疏,这种稀疏性给多标签学习带来了挑战,也带来了机遇。针对多标签学习中遇到的问题,本文通过对不同的偏最小二乘回归(PLSR)模型进行改造,提出三种新的多标签分类算法。理论分析和模拟实验表明,这三种多标签分类算法都可以获得有效的分类结果。利用奇异值分解(SVD)可以有效地提取矩阵空间重要信息的特点,提出基于SVD-PLSR的多标签分类算法,用于处理多标签数据(Multi-label Data),简称SPMD。该算法能够对多标签数据同时进行维数约简和回归分析。首先,将类别标签集合作为一个整体处理来探索标签相关性;其次,通过奇异值分解技术求得样本空间和标签空间的得分向量。最后,在偏最小二乘回归技术的基础上得到多标签分类模型。利用岭回归(Ridge regression)可以处理变量多重共线性的技术特点,在偏最小二乘判别分析(PLS-DA)的基础上,提出命名为RPLS-DA多标签分类算法。该算法对PLS-DA算法施加l2约束,克服了PLS-DA在处理高维数据时遇到的“高维数,小样本”问题。利用稀疏学习模型LASSO对非线性迭代偏最小二乘回归(NIPALS)进行稀疏改造,提出基于LASSO-NIPALS的多标签分类算法,用于处理多标签数据(Multi-label Data),简称LNMD。该算法可以同时对多标签数据实施维数约简和特征选择,并利用标签相关性来构建多标签分类模型,同时也提供了一种新的稀疏降维方法。