论文部分内容阅读
深度卷积神经网络(CNNs)在很多学科的各种应用中都取得了巨大的成功。但是CNNs的优异性能依赖于带有正确标签的大规模数据集。而想要获得一个带有正确标签的大规模数据集是一项非常昂贵且耗时的工作。这个问题限制了深度学习的发展。为了克服这个限制,网络监督学习成为了一个很有前景的方向。它在没有任何人工标注的情况下,通过文本搜索,使用网络爬虫技术从互联网上收集数据,并直接用这些数据来训练神经网络。而那些搜索关键字则直接被当成对应数据的标签。但是这些标签是极度不可靠的,且包含了大量噪声。过去的很多研究工作已经表明,噪声标签会严重影响CNNs在图像分类上的性能。为了克服这个问题,我们提出了两种能够在带有噪声标签的数据中学习鲁棒的CNNs的方法,以执行图像分类任务。第一种方法我们称之为Group-teaching。具体而言,我们通过同时训练一组CNNs,并让它们通过选择出自己认为带有正确标签的数据去指导其他网络的进一步训练。Group-teaching利用了多个网络的多样性和各自不同的学习能够力,增强了每个网络识别出带有噪声标签数据的能力,缓解了噪声标签对训练过程的影响,从而提升了在噪声标签图像分类任务上的性能。我们也在多个数据集验证了我们方法的有效性和鲁棒性。如在CIFAR-10和CIFAR-100的噪声标签版本数据集中的实验结果表明,我们的Group-teaching在图像分类任务上的性能优于已有的先进算法。此外,我们也验证了我们的方法在带有真实噪声标签分布中的有效性,如Web Vision1000-100数据集。第二种方法是我们针对网络监督图像分类任务提出的一个简单且高效的样本融合框架。在标签置信度的指导下,我们提出的框架从两方面抑制了噪声标签的影响:基于置信度偏向的样本融合正则化和基于加权置信度的标签校正。具体而言,我们为每一类构建了一个视觉相似性图,它的每个节点表示相应类别的图像。对于每一张图像节点,我们汇总了它以及其邻居的文本数据,并以此提取它的语义信息,用于计算样本的标签置信度。这个标签置信度被用于指导样本融合以及标签校正。最后,我们在Web Vision1000和Food101-N两个大规模网络监督数据集上的执行了实验,验证了我们方法的有效性。