论文部分内容阅读
近十年以来,深度神经网络飞速发展,在机器学习的各个应用领域都取得了令人瞩目的成就。特别是在图像领域,完全监督学习的相关理论和模型不断优化,日益成熟,其在各类图像识别任务均取得巨大的成功。但是,随着图像领域中各类应用任务越来越复杂以及各类任务所需要的数据量越来越大,人工标注工作所需的人力物力成本也越来越高。同时,更多真实场景数据集不断涌现,其中图像的复杂性和多样性更加显著,这不仅导致了完全标注相关信息越来越困难,而且标注的过程极易出错,难以保证标签的精确性。因此,保障图像识别效果的同时,如何减少对数据标签的依赖并降低数据标注的成本成为了深度神经网络发展过程中亟待解决的问题。针对以上问题,本文将在图像领域进行基于深度神经网络的弱监督学习方法研究,其相比于完全监督学习方法来说,完成同样的图像识别任务,其对数据的标注要求更低,标签不需要完全与任务相匹配,形式上更简单。该研究中的关键问题是如何充分利用数据中已有的信息,如何减小标注工作量以及如何将外部经验和规则与模型充分结合。具体地,本文以基于深度神经网络的弱监督学习方法为主要的研究目标,通过分析已有模型和方法的优势和不足之处,在图像相关应用领域探索有效的弱监督学习建模方法,并提高相关任务的实现效果。本文提出了三种基于深度神经网络的弱监督学习方法,主要的内容和贡献概括如下:(1)提出了一种基于多尺度证据的弱监督学习方法。通过卷积神经网络的金字塔特征层次结构提取输入图像的多尺度证据,仅使用全局图像级别标签进行弱监督学习,可以同时实现图像多标签分类和单点目标定位两项任务。方法应用了一种全新设计的损失函数,有效地解决了不同尺度类别依赖激活图上的活跃区域不平衡的问题。提出了一种基于超像素的弱监督边界框生成算法,通过生成的边界框,有效地辅助实现模型的弱监督单点目标定位。实验结果表明,提出的网络结构可以高效地利用图像中的多尺度证据,提升图像多标签分类和单点目标定位的效果。同时,相关实验表明,全新设计的损失函数可以进一步提高模型的分类和定位效果。(2)提出了一种基于图卷积网络的弱监督学习方法。探索了如何利用图像中的标签依赖帮助提高模型的分类和目标定位效果。方法中图卷积网络的节点向量使用了 一种全新设计的初始化方法,破除了现有初始化方法对自然语言中词向量迁移的依赖,通过矩阵分解的方法,对训练集中的标注信息进行学习,实现对节点向量的有效初始化。实验结果表明,提出的网络结构可以有效地利用图像中的标签依赖关系,提升图像多标签分类和单点目标定位的效果。同时,相关实验表明,全新设计的节点向量初始化方法可以进一步提高模型的分类和定位效果。(3)提出了一种基于空间划分的弱监督学习方法。该方法摆脱了现有方法对候选区域的依赖,并且可以实现端到端的训练,仅使用全局图像级标签,通过全新设计的互约束学习过程,就可以直接显性地输出待检测目标的边界框,实现弱监督的目标检测。方法通过在现有弱监督学习网络的基础上添加了边界框生成网络和参数化分区模块两个可微分模块,将原始模型改造为端到端的检测网络。实验结果表明,改造后的网络不仅可以有效地显性输出目标边界框,并且在图像多标签分类和目标检测两项任务上效果均优于原始模型。