论文部分内容阅读
细粒度图像识别是对粗粒度的大类别进行更加细致的子类划分。由于子类别间细微的类间差异和较大的类内差异,和通用图像识别任务相比,细粒度图像识别更具挑战性。论文以基于深度学习的云南野生鸟类图像细粒度识别为研究主题,重点对基于深度学习的云南野生鸟类图像细粒度分类和基于深度学习的云南野生鸟类图像细粒度物体检测两个方面进行了研究。收集和标注云南野生鸟类图像数据集YUB-200-2017。为了能够支撑论文的云南野生鸟类图像细粒度识别研究,论文作者从云南省野生鸟类资源中收集了 200个类别的鸟类,每个类别60幅图像,共12000幅图像。同时为数据集中的每一幅鸟类图像提供:(1)鸟的类别标签,(2)鸟整体的矩形包围盒坐标,(3)鸟头部的矩形包围盒坐标,(4)鸟身体的矩形包围盒坐标,(5)鸟的分割掩码,(6)鸟的13个语义部件的关键点坐标,(7)外形特征,(8)栖息环境,(9)地理分布。这个数据集及其丰富的标注信息为云南野生鸟类图像细粒度识别及其相关研究奠定了坚实的基础。基于模型微调和迁移学习的云南野生鸟类图像细粒度分类研究。基于迁移学习和模型微调,通过三种模式(重头训练,局部微调和全局微调)对不同的卷积神经网络在云南野生鸟类数据集上的分类进行了比较性研究。通过实验发现全局微调在不同的卷积神经网络架构下都能取得最优的分类精度。因此对于中小型数据集来说,通过在ImageNet数据集上预训练的模型对新数据集进行全局微调是取得较好分类精度的首选方法。同时,在这些卷积神经网络架构中,深度残差网络和密集连接网络具有最高的分类精度,使得深度残差网络和密集连接网络成为基于模型微调和迁移学习的卷积神经网络架构首选。联合语义部件的鸟类图像细粒度分类研究。提出一种联合语义部件检测的细粒度图像识别模型,该模型由语义部件检测网络和分类网络两个模块组成。通过将语义部件检测视为三个类别的物体检测任务,语义部件检测网络利用基于深度残差网络的物体检测算法对鸟类图像的语义部件进行检测。基于检测得到的语义部件信息,通过构建一个三路基于深度残差网络的分类模型同时对对象级和部件级的特征进行聚合,然后进行分类。论文提出的细粒度分类模型在云南野生鸟类图像数据集YUB-200-2017和CUB-200-2011上具有较高的语义部件检测精度和识别准确率。基于数据扩充和区域全卷积网络的鸟类图像细粒度物体检测研究。基于区域全卷积网络物体检测框架,使用深度残差网络作为主干架构,通过两个阶段完成细粒度鸟类物体检测。第一个阶段使用区域建议网络通过残差网络来自动生成候选区域包围盒。给定通过区域建议网络生成的区域建议框,在残差网络的最后一个卷积层上生成位置感知得分图和位置回归得分图两个分支。通过多任务损失函数对检测网络进行端到端的学习,最后通过非极大值抑制得到检测结果。为了增强模型的鲁棒性和减少过拟合,使用数据扩充方法对训练集进行扩展。实验结果表明该模型能够对图像中包含的多只鸟同时进行定位和分类。