论文部分内容阅读
图像中的物体识别是计算机视觉领域中的一个核心任务。它是很多计算机视觉应用的基础,对人类视觉系统的深层理解具有重要作用。物体识别通常分为两个基本问题,即物体的分类和检测。在人类的认识系统中,物体的分类和检测互相依赖,他们共同形成物体识别的整体。近年来随着深度学习技术的发展,相比传统方法物体识别的精度和规模也被很大程度的提升。然而在取得成功的同时,也发现目前的物体的分类和检测大多是独立来考虑的,并没有形成一个相互依赖的整体,这造成了信息的浪费。同时,由于数据量的爆炸式增长,数据的标注问题给当前的物体识别算法的进一步增强和扩大带来了新的挑战。因此,充分挖掘物体分类和物体检测之间的关联性也成为当前物体识别的重要课题。围绕物体分类和检测的统一,本文开展了以下工作: 1.我们研究了物体识别中物体特征的鲁棒表达以及高阶关系模型。物体的特征表达是物体分类中的重要因素,在经典的视觉词典模型中主要包括特征编码和汇聚两个步骤。基于当前提出的各种特征编码和汇聚方法,我们对二者的组合进行系统性探索,发现了一些有趣的规律并给出了在各个应用场景中的使用指导。此外,为了克服目噪声对物体特征表达的影响,我们通过对物体进行特征表达的高阶关系建模,得到了更为鲁棒的特征表达,能够有效改善物体分类算法的效果。 2.我们研究了基于视觉通路反馈的鲁棒物体识别方法。物体识别包括两个基本任务,即物体分类和检测,许多研究都是将二者分别考虑。然而生理学实验表明,分类和检测存在着信息的交互,即每个任务将信息反馈到另一个任务以达到增强识别的目的。基于此,我们提出了基于视觉通路反馈的鲁棒物体识别方法,设计了视觉通路反馈原理的计算模型,分别利用物体显著性和物体结构实现分类和检测通路的反馈,使得物体识别可以较为有效的克服物体本身的各种变化以及复杂背景的影响。 3.研究了面向弱标注和噪声标注的物体检测算法。传统的物体检测需要大量的人工对训练图像中物体的类别和位置进行标注。然而真实应用场景中,物体位置的标注需要极大的资源花费。基于此,我们提出了基于隐式语义学习的弱监督物体检测方法,利用语义分析描述未标注样本之间的相似性,挖掘出可能的物体类别和背景类别,并用于在弱标注和噪声标注下的物体检测,使得物体检测的性能在只给定少量标注以及大量噪声标注的情况下都得到了大幅度提升。