论文部分内容阅读
目标识别与检测是计算机视觉、多媒体应用等领域重要的研究内容之一。目标识别的任务是对给定的输入图像,确定是否包含指定目标,在多目标检测中,还需判断出不同目标所属的类别。目标检测任务则不仅需要确定是否包含目标,还需要给出目标准确的位置信息。现今,图像采集和传输技术的飞速发展产生了海量的图像数据,自动识别图像中的物体这一技术在诸多场景应用中至关重要。在行为分析、语义理解等高层视觉处理与分析任务中,精准检测出目标是其重要基础。此外,在视频实时监控城市公共安全,无人机及卫星航拍图像检测道路等场景中,目标检测技术均得到了广泛应用。尽管该领域目前已取得许多突破,但依然面临诸多挑战。如在图像背景复杂、光照不均、目标模糊、尺度过小、以及目标被遮挡等的情况下,很难获取到理想的目标辨识效果。卷积神经网络在目标检测中的应用使得模式识别的模型复杂度提升,也由此带来了计算成本的增加。研究实时性、精确性、稳定性较高的目标识别与检测算法成为了当前的热点问题。本文从目标识别与检测的实际问题出发,围绕地面小尺寸目标精准定位的问题,结合计算机视觉、深度学习、机器学习的相关算法进行了深入的研究。具体研究内容包括:从目标特征表达和提取,目标预测框生成、提高定位精度等的角度研究了不同光照、角度变化下的地面小目标检测问题,主要贡献如下:一、尽管目前基于深度学习的目标检测算法对于常规尺寸目标的取得了较好的检测结果,但由于地面目标尺度较小,外观信息较少,图像背景复杂等的原因导致小目标检测存在精度低、定位困难等问题。本文对几种经典的深度学习目标检测框架针对小目标检测进行了实验分析与对比,从目标特征提取的角度提出了一种基于特征融合的子网络来获取增强语义的小目标特征。该网络利用了多个层次的深度特征图信息,构建了融合特征层,作为小目标预测网络的输入。对比许多检测算法仅利用高层特征的信息表达,而缺失了对小目标而言较为关键的局部细节信息,该方法有效地提升了小目标的特征表达。二、针对尺度、角度等的变换问题,本文设计了一种基于融合层的扩展层预测子网络,在扩展层的多个尺度空间内匹配目标,将每个层次的预测值与真实值的偏差加权和作为损失函数训练模型,有效地提高了小尺寸目标的定位精度。三、深度学习检测模型虽有强大的表征能力,但随着模型复杂度的爆发式增长,容易导致过拟合的问题。针对这一问题,本文从增加训练集量级、降低模型复杂度的角度出发,做了一系列的改进以提高模型的泛化能力,包括数据集的增广,BN(Batch Normalization)层归一化处理,L~2正则化操作等。这些工作进一步提升了检测模型的识别精度,同时加快了模型收敛速度。在两个公开数据集的实验表明,本文提出的小目标检测模型展现出较为明显的优势。