论文部分内容阅读
图像分类问题是计算机视觉领域重要的研究内容之一,随着生产生活中人们追求更精细的目标检测,细粒度图像识别与分类问题成为近年来人们越来越关注的课题。细粒度图像分类任务主要是指在相同大类下面去区分不同的子类别。相对于粗粒度分类任务而言,细粒度图像分类问题面临的主要难题是待分类图像类别的粒度更为精细,不同子类在形态,大小和角度方面有很小的差异,因此如何使用有效的方法进行前景图像的检测,并且从图像中提取重要的局部信息决定着细粒度图像分类问题是否可以取得很好的效果。对于细粒度图像分类任务而言,一般根据模型是否用到额外的人工标注信息,主要分为“强监督学习”和“弱监督学习”两类。现有的大部分方法是在有人工标注的条件下进行物体和部件的检测然后进行特征表示和分类,但是获得这些额外的标注信息需要消耗大量的人力物力,而且人工标注信息错误率也较高。本文首先直接用CNN网络对细粒度图像进行分类但是分类效果并不是很好,在此基础上提出了一种基于物体部件的细粒度图像分类模型。本文的主要工作如下:(1)物体定位模型。通过大量的实验可以发现网络模型中卷积层特征对图像中主要物体的响应度较大比如说一些卷积层特征在鸟的头部位置响应比较大而另一些卷积层特征在鸟的身体位置响应比较大,但是单通道卷积层特征并不能很好地实现物体的定位。基于以上发现,本文结合Conv5层中所有通道的卷积层特征来构建物体定位模型从而实现物体的定位检测。最后通过得到的物体图像结合深度学习进行图像分类。(2)部件选择模型。通过自底向上的算法可以从图像中得到大量图像块然后通过卷积层可视化分析可知网络中的卷积层特征具有聚类特性,本文通过谱聚类方法构建卷积层的部件检测器来对图像块进行筛选从而得到图像的部件表示。最后通过得到的部件图像结合深度神经网络进行细粒度图像分类。(3)以上两个模型可以在细粒度图像识别上取得比较好的分类效果但是相比于现有的算法效果还是有一定的差距,因此本文最后通过融合物体定位模型,部件选择模型和原始图片特征构建一个三流的网络模型来进行细粒度图像分类。该网络模型不仅可以提取到图像的整体特征还保留了图像的局部特征,实验证明相比于现有的细粒度识别算法该网络模型取得了比较好的分类效果。本文的模型主要用到图像级别的标注信息并在CUB200-2011[1]数据集上取得了比较好的分类效果。因为不需要额外的人工标注信息,该模型有比较好的鲁棒性,可以将本文模型应用于对前景的检测,目标分割和细粒度图像分类等任务。