论文部分内容阅读
传统的监督学习需要明确的监督信息,而为示例标注明确的监督信息需要耗费大量的人力和物力,甚至有的标注需要专门的人才才能完成。弱监督学习不仅不需要强监督信息,并且弱监督学习框架更加符合现实生活中的场景,因此弱监督学习框架在机器学习领域受到了广泛关注。偏标记学习是弱监督学习中的一种。在偏标记学习中,每个示例对象都有一个候选集合,该集合带有多个标签信息,其中真正的标签只有一个。偏标记学习的难点主要在以下三个方面,第一是训练示例对应的标签信息是一个集合,而不是明确地指出其对应的真正标签。第二是候选集合中的标签存在相似性。第三是示例与标签之间的联系很难充分利用。基于以上分析,本文提出了两个基于偏标记学习的算法。为了充分利用示例空间与标签空间之间的相似性,本文提出了一个基于低秩和标签传播的偏标记图像分类算法。该算法的创新点有三个,首先基于流行假设充分利用了示例空间和标签空间之间的相似性。流行假设的思想是在示例空间中相似的示例在标签空间中也具有同样的相似性,因此基于流行假设能够将示例空间与标签空间联系起来。其次基于低秩表示矩阵构建示例之间的相似性。相对于基于距离度量的相似性构建方式,该算法采用的低秩表示方式能够构建全局空间并且对高维数据有更好的效果。在构建低秩表示矩阵时加入了稀疏约束,减少示例不平衡对低秩表示矩阵的影响。最后并没有以最大概率值作为对应示例的真正标签,而是将其转换成了一个多输出回归问题。由于矩阵中可能会存在消歧效果不明显的标签,所以候选标签集合中的概率值可能存在平均概率的情况。不以最大概率值做为对应示例的真正标签,减少伪正例对预测模型的影响。大量实验证明了使用低秩表示矩阵表示示例与示例之间的相关性,并且将这种相关性延伸到标签空间对分类性能有很大作用。为了突显出真正的标签,本文提出了一个基于标签最大置信度的偏标记图像分类算法。该算法主要有两个创新点,第一是在模型的损失项中增加每个示例置信度的无穷范数,突出候选标签集合中的真正示例。平均消歧策略有一个很大的弊端即消歧后的置信度矩阵中存在消歧效果不明显的示例。该算法改善平均消歧策略劣势,突出候选标签中的真正标签。第二是基于图拉普拉斯约束项充分利用示例之间的相似性。图拉普拉斯项使目标函数中的相似示例会有相似输出,使得突出的标签接近真正的标签。大量的实验结果表明,基于标签最大置信度的方法在图像分类问题上有着很好的性能。