论文部分内容阅读
在多标记学习中,每个对象用一个特征向量表示,它可以属于一个或多个类别标记,标记之间存在相互依赖性。多标记学习的任务就是为每个测试对象预测一个或多个适合的类别标记。多标记学习是当前机器学习领域的一个研究热点,已经引起了学者的广泛关注。在过去的十几年里,多标记学习得到了广泛的应用,例如文档分类、图像标注、视频标注、社交网络、音乐情感分类等。但随着互联网技术的发展,数据的规模越来越大,维度越来越高,给传统的多标记学习算法提出了严峻的挑战。本文对多标记分类和特征选择算法进行研究,主要工作包括: 1.提出一种简单有效的基于最近邻算法的贝叶斯模型LPLC(multi-label classi-fication by exploiting Local positive and negative Pairwise Label Correlation),建模局部标记正负相关性。以往的多标记学习算法大多利用全局的标记相关性来建模分类器,并且没有显式的建模标记间负相关性。实验结果显示出LPLC比全局化利用标记关系的方法有更强的泛化性能,且显示了建模标记间的负相关性的有效性。 2.提出为每个类别标记学习一个类属特征表示,并在此基础上建立多标记分类算法LLSF(Learning Label-Specific Features for multi-label classification)。以往基于BR(Binary Relevance)框架的多标记学习算法不同,我们的算法在每个类别标记的二类分类器中使用该类别特有的类属特征表示作为输入,它由对该类别具有强判别力的类属特征构成。实验显示出每个类别标记只由原始特征集合中的部分特征所决定,并且标记对之间的相关性大小和它们所共享的特征数之间存在一定的一致性。LLSF学得的类属特征表示还可以用于现有基于BR框架的多标记学习算法,提高算法的效率和性能。 3.提出建模高阶类别相关性多标记学习算法LLSF-DL(Learning Label-Specific Features and class-Dependent Labels for multi-label classification)。高阶算法主要挖掘类别标记间的依赖结构关系,然后据此来依次训练不同类别的分类器,算法性能受限于错误传播和冗余的类别依赖关系。在LLSF的基础上对其进行改进以建模高阶类别相关性,学习类属特征的同时再学习有效的类别依赖结构,进而减小类别信息的错误传播对分类器性能的影响。实验结果显示出LLSF-DL性能优于LLSF,并且具有更高的稳定性。 4.提出一种联合特征选择和多标记分类的方法JFSC(Joint Feature Selection and Classification for multi-label learning),它可以同时用于多标记分类和特征选择。与现有多标记学习算法不同的是,我们首先学习每个类别私有的类属特征以及相关类别之间共同共享的特征,然后在学习到的低维数据表示上建立多标记分类模型。同时,JFSC算法主要引入线性判别分析的思想,进一步增强每个类别的类属特征表示的判别力,期望在每个类别标记的类属特征空间中正负例样本具有较好的可分性。实验结果显示出JFSC在多标记分类和特征选择方面都具有较强的泛化性能。