论文部分内容阅读
目标检测是计算机视觉的基本问题之一,是完成目标跟踪、实例分割等其他视觉任务的基础。随着信息技术的发展,人类生活中存在着大量的图像和视频数据,这使得目标检测技术在人类生活中起到的作用越来越大,当前主要应用于人脸识别、自动驾驶等领域。目标检测的研究有着悠久的历史,但是传统目标检测方法在面对大数据量的样本时有一定的局限性。深度学习的发展给目标检测带来新的思路,利用卷积神经网络进行检测受到了广泛关注。本文基于深度学习技术对目标检测进行了研究,主要工作如下:第一,针对YOLO算法中预测层级单一以及网络加深导致的模型复杂度提高,对YOLO算法进行改进。从以下方面进行改进:利用深度可分离卷积减少计算过程中的参数量,结合残差结构构造反残差块,改善网络加深过程中产生的梯度消失现象,反残差块中采用瓶颈结构避免特征信息丢失;采用多尺度特征融合策略,将32倍降采样后的特征层进行2倍上采样,与对应尺度的特征层进行拼接融合,融合后产生的特征层继续进行2倍上采样,进行拼接融合,所产生的3种不同尺度的特征层级用于目标预测,优化了对于多尺度目标的检测效果;针对数据集目标特点,对目标先验框进行聚类分析,提高模型适用性;针对模型中的正负样本不平衡问题,将改进模型与Focal loss进行结合,与其他目标检测模型进行对比分析,实现模型检测精度的提升。第二,针对SSD算法中基础网络VGG16特征提取能力不足和浅层特征层之间联系单一的问题,对SSD算法进行改进。从以下方面进行改进:通过更改前置基础网络为DarkNet53,利用其更强的特征提取能力,提高模型的整体检测性能;通过引入特征融合结构,将19×19和10×10的特征图通过双线性插值的方式变换尺度为38×38,结合1×1卷积核调整通道数为512,将上述生成的特征层与调整通道数后的38×38特征层进行拼接融合产生新的特征层,最后将新的特征层作为多尺度预测中38×38尺度的预测层。通过这种特征融合结构加强浅层特征层之间的特征信息联系,丰富多尺度特征信息,从而提高SSD算法模型的检测精度。为了验证本文改进的两种算法的有效性,在常用的目标检测数据集上进行改进算法的实验验证。其中采用INRIA行人数据集对改进YOLO算法进行实验验证,将Focal loss应用于改进算法并在PASCAL VOC 2007数据集上与两阶段的目标检测算法进行对比分析,最后将改进YOLO算法应用于焊点缺陷检测;采用PASCAL VOC 2007和2012联合数据集对改进SSD模型进行实验验证,并与其他算法模型进行对比分析。