论文部分内容阅读
传统的单标签数据挖掘,假定每个样本点仅属于一个类别,但是随着标注结构复杂程度的增加,每个样本可能同时属于多个类别,即多标签数据。在实际应用中,多标签数据标签的获取比较困难,因而得到的标签数据有限或者标签缺失。如图像标注中,必须遍历所有候选的单词,需要消耗过多的资源来确定每一个图像的标签。一般的,获得的标签数据有限或者标签是不完整的。针对多标签数据有限或者标签缺失的情形,本文分别在两种情形下提出相关的学习方法。在标签数据有限情形下,同时考虑数据的高维影响,本文提出了多标签半监督降维方法;在标签缺失的情形下,本文提出了标签缺失情形下低秩分类的方法。本文的主要工作为以下三个方面:(1)分析研究了标签有限和缺失情形下的多标签学习方法,结合标签有限和缺失情形下的数据特点以及实际应用中的需求,通过相关的研究,分别提出了标签数据有限情形下的多标签降维方法和标签缺失情形下的多标签分类方法。(2)在标签数据有限的情形下,结合数据高维的特性,提出了多标签半监督降维的方法LEDA(Semi-Supervised Multi-Label Feature Learning via Label Enlarged Discriminant Analysis)。LEDA算法通过标签传播的方式,利用已标签数据和未标签数据的空间结构信息,将已标签数据的标签信息传递给未标签的数据,然后用增大的多标签信息学习数据的低维表示。通过这种方法,可以有效地利用已标签数据和未标签数据的信息,使得数据的低维表示包含更多的判别信息,有利于实现数据的分类。通过对算法的收敛性、算法的复杂度以及参数理论证明和实验分析,验证了算法的有效性。(3)在标签缺失的情形下,提出了标签缺失情形下的低秩分类方法LRML(Low Rank Multi-Label Classification with Missing Labels)。LRML算法将缺失标签矩阵的重构与分类器的训练有机的结合在一起。通过标签一致性假设与局部不变性假设实现标签矩阵的重构,将特征空间的信息嵌入到标签空间中。通过重构的标签训练分类器,并在分类器模型上加入低秩约束和正则化项,既探究了标签之间的相关性,也增强了模型的鲁棒性,使得到模型能够更好的解决标签缺失的问题。理论分析和广泛的实验证明了算法的有效性,并且实验结果表明该算法的优越性。