论文部分内容阅读
随着科技的发展,越来越多的应用涉及到多标签问题,如文本分类、图像标注、基因功能分析等。与传统的单标签(二类分类或多类分类)问题不同,多标签问题中允许一个示例可同时与多个标签相关联,标签之间存在更丰富的标签关系,导致多标签问题的分析变得更加复杂。多标签学习研究的是如何给多标签问题中的待测示例赋予所有合适的类别标签。由于标签关系的存在,多标签学习比传统的单标签学习复杂得多,更加难以分析。出于应用需求,越来越多的研究人员开始多标签学习研究。多标签学习研究已成为机器学习和模式识别领域的研究热点之一。虽然多标签学习研究已经取得了很大的进展,但其仍面临着一些关键问题的挑战,如已有多标签分类算法的分类性能仍有待提高、较高的标签空间维度导致较高的训练和测试时间成本以及较高的特征空间维度容易导致训练模型过拟合等亟待解决的挑战性问题。因此,多标签分类、标签空间降维和多标签维度约简是目前多标签学习研究中的三个重点研究方面。其中,多标签分类算法研究以提升分类性能为目标;标签空间降维算法以降低标签空间的维度为手段利用标签关系,以期提高分类性能,同时减少训练和测试时间;多标签维度约简用于解决多标签学习中的“维度灾难”问题,通过降低特征空间的维度,以获得更好的示例表示。本论文正是围绕这三个方面开展多标签学习研究,主要工作包括以下几点:1.鉴于标签间常常有簇状标签关系,提出了基于簇状本征标签关系的多标签分类算法。该算法中每个标签的权值向量由公共分量和独有分量两部分构成。公共分量是所有标签共有的部分,对应示例中的背景信息;独有分量归单个标签所有,对应示例中该标签的独有信息,标签之间的本征关系反映在独有分量之间的关系上,而标签之间往往有簇状关系。本文所提出的方法基于上述权值向量结构对支持向量机进行扩展,在所有标签的独有分量上通过施加簇状关系正则项利用簇状标签关系提高分类性能。通过放松正交约束条件,文中将非凸问题变为联合凸的半正定规划问题,并利用基于交替迭代更新规则的块坐标下降方法提出了该问题的一种优化方法。实验结果表明,所提出算法的分类性能明显优于相关多标签分类算法。2.针对现有多标签分类算法中所有标签用同一示例进行训练的问题,提出了一种利用示例分布情况为每个标签构造更易判别的新示例表示的多标签分类算法。由于同一示例表示无法较好地反映各标签的特点,为此,所提出的算法基于一对所有策略将多标签分类问题转化为多个二类分类子问题,每个标签对应一个子问题。每个子问题中正、负示例局部结构之间的关联关系对构造高效分类模型有着很重要的作用,为挖掘这些关联关系,本文提出了一种新的谱聚类方法一谱示例校准。所提出的多标签分类算法利用谱示例校准算法得到聚类结果为每个标签构建更符合标签特点的示例表示,然后基于新的示例表示训练二类分类模型。实验结果验证了该算法的有效性。3.为在标签空间降维过程中充分利用示例信息,提出了一种基于依赖最大化(Dependence maximization)的标签空间降维算法。该算法的目标函数包括两部分:编码损失和依赖损失。编码损失衡量用主成分分析方法对标签矩阵压缩过程中的信息损失。当标签向量经过降维变成码字向量后,还需学习从特征空间到码字空间的回归模型,故示例和码字向量之间的关系很重要,依赖损失便是用来衡量两者之间依赖关系的损失情况。为利用示例信息,所提出的算法首次用希尔伯特-施密特独立标准来衡量依赖损失,以能更充分地挖掘并利用示例和码字向量之间的依赖关系。此外,我们还探讨了两种不同示例核矩阵对所提出算法性能的影响,其中一种示例核矩阵基于全局结构信息,另一种示例核矩阵基于局部潜在结构信息。实验结果表明,该算法不仅大大缩短了训练和测试时间,还能有效提高分类性能:利用后一种示例核矩阵的算法具有更好的分类性能,而其训练和测试时间与利用前一种示例核矩阵的算法相当。4.针对示例和标签向量中的孤立点问题,本文提出了一种基于l2.1范数的鲁棒标签空间降维算法。由于数据采集设备的问题,数据集的示例中往往存在孤立点问题;标签向量孤立点是指与标签空间降维算法中所利用的主要标签关系明显不符的标签向量。目标函数包括编码损失和依赖损失两部分。编码损失衡量用主成分分析方法对标签矩阵压缩过程中的信息损失。依赖损失衡量示例和码字向量间线性回归关系的损失情况。为解决孤立点问题,该算法目标函数中的编码损失和依赖损失均采用l2.1范数。所得到的目标问题是一个非光滑问题,本文提出的变形交替迭代更新方法有效地解决了该问题,并对其进行了收敛性分析。实验结果表明,所提出的鲁棒标签空间降维既能缩短训练和测试时间,又能提高分类性能。此外,在标签受污染的数据集上的实验结果表明,与其它标签空间降维算法相比,该算法具有更好的鲁棒性。5.现有多标签维度约简方法没有利用局部潜在结构,而传统维度约简方法研究已表明这些结构的有用性。为此,本文提出了一种新的多标签维度约简方法一多标签局部判别嵌入。该方法利用与实际情况更符合的非对称标签关系矩阵,这样既赋予了包含信息量多的示例更大的权重,又克服多标签学习中的过计数问题;通过构建两个邻接图集合来分析局部潜在结构,以更好地挖掘并利用数据内部的几何结构,使维度约简结果有更好的类内紧致性和类间可分性。通过对得到的优化问题施加正交约束条件,获得一组正交投影向量。实验结果表明,与相关多标签维度约简方法相比,该方法的维度约简结果更合理,能产生更有判别信息的特征,从而取得更好的分类精度。