论文部分内容阅读
多标记学习是处理真实世界具有丰富语义对象的主要学习框架之一。在人工智能、机器学习等方面应用广泛。在多标记学习中,示例具有多种标记属性,而这些标记间存在局部或者全局的相关性。显然合理利用标记间的这种关系可以获得额外的分类信息,这有利于提高多标记学习系统的性能。在真实世界中,样本的标记数通常远小于未标记数,否则示例的多义性将失去意义。但不可否认的是未知标记中也可能包含了大量有价值信息。目前很多考虑标记相关性学习算法都是假定标记间相关性是对称的,然而标记间关系并非一定对称。基于以上考虑,本文展开研究,主要工作如下:(1)目前众多的研究者通常直接将标签置信度矩阵作为先验知识直接加入到分类模型中,并没有考虑未标注先验知识对标签集质量的影响。基于此提出一种非平衡化标记补全的核极限学习机多标记学习算法:首先使用信息熵计算标记之间的相关关系得到标记置信度矩阵,然后利用非平衡参数方法对基础的标记置信度矩阵进行改进,构建出一个非平衡的标记补全矩阵,最后为了学习获得更加准确的标记置信度矩阵,将非平衡化的标记补全矩阵与核极限学习机进行联合学习,依此来解决多标记分类问题。(2)针对近邻空间的标记相关性问题,利用近邻空间中元素的相关性提升近邻标记空间的质量,提出一种近邻标记空间的非平衡化标记补全算法:首先利用标记之间的信息熵来衡量标记之间关系的强弱,进而获得基础标记置信度矩阵;然后利用提出的非平衡标记置信度矩阵计算方法,获得包含更多信息的非平衡标记置信度矩阵;接下来度量样本在特征空间中的相似度,得到k个近邻标记空间样本,再利用非平衡标记置信度矩阵计算得到近邻标记空间的标记补全矩阵,最后利用极限学习机作为线性分类器进行分类。(3)考虑样本特征空间信息进行重构,增强特征空间的样本联系的同时引入标记相关性信息,提出一种结合均值漂移和非平衡化标记补全的多标记学习算法:首先利用均值漂移聚类方法将特征空间中特征间的信息进行重构;接着利用标记之间的信息熵来衡量标记之间关系的强弱,进而获得基础标记置信度矩阵;然后利用提出的非平衡标记置信度矩阵计算方法,获得包含更多信息的非平衡化标记补全矩阵;最后利用重构的特征空间与非平衡化的标记补全矩阵构成新的训练集,根据新的训练集采用已有的线性分类器进行预测。