论文部分内容阅读
随着计算机应用技术和图像识别技术的发展,人们可以通过计算机实现仅存在于生物体中的视觉效果。如今,计算机视觉研究已成为一个跨学科的研究热点。主要目的是使计算机能够根据图像采集器捕获的图像对物体和场景做出正确的判断,包括对物体进行自动检测和识别。目前,目标检测与识别的研究成果被广泛应用于智能交通系统的车辆检测与识别中。智能交通系统(ITS)将人、车有机地连接在一个系统。这样车辆就可以在道路上实现安全自由地智能行驶。目标检测在实际场景中还有着广泛的应用需求,如视频监控、现实增强等,因此目标检测具有重大研究意义。
目前常用的目标检测算法主要包括传统的目标检测算法和基于深度学习的目标检测算法。传统方法所提取的特征只是浅层的,难以表征检测目标多类别之间的差异,导致检测准确率较低。基于深度学习的目标检测算法一般使用神经网络提取候选区域,然后利用训练好的复杂卷积神经网络进行特征提取,进行分类识别,准确率明显高于传统算法。然而该技术还有很大的提升空间,实际目标检测还有许多问题有待解决,如检测目标较小等问题,因此对算法的要求越来越高。本文主要做了以下工作:
本文总结了国内外目标检测研究现状,介绍了基于区域的卷积神经网络的发展,并进行比较分析。针对基于区域的卷积神经网络方法因生成建议区域不准导致结果准确率低的不足,本文从以下方面进行改进:
(1)使用分水岭算法对图像进行预分割。对原始图像进行预分割,提高了产生的候选框包含目标的概率,为后续得到高质量候选框做了充分准备;
(2)改进的锚框生成方法。把预训练中出现频率最高的真实尺寸作为初始锚框,然后根据锚框的面积以及长宽比生成多尺寸锚框,该方法提高了目标候选框的质量;
(3)对候选框采用投票方式的筛选方法。对候选框以投票的方式进行筛选,然后将筛选的候选框的信息都综合起来得到物体信息,从而可以充分地利用候选框的信息。
本文选择Faster RCNN(Faster Region Convolutional Neural Networks)作为目标检测框架,以Logo作为实验检测目标。从结构上,对比分析不同类型的卷积神经网络的特点,并在BelgaLogos数据集上对它们分类性能进行验证,最后确定最佳Logo分类网络。在Flickr Logos-16数据集上进行Logo检测实验,选择三种不同的卷积神经网络VGG16(Visual Geometry Group 16)、ZFNet、ResNet50(Residual Network50)作为改进后的Faster RCNN的共享卷积层,实验证明将ResNet50作为共享卷积层的检测,得到的Logo检测结果最好。
目前常用的目标检测算法主要包括传统的目标检测算法和基于深度学习的目标检测算法。传统方法所提取的特征只是浅层的,难以表征检测目标多类别之间的差异,导致检测准确率较低。基于深度学习的目标检测算法一般使用神经网络提取候选区域,然后利用训练好的复杂卷积神经网络进行特征提取,进行分类识别,准确率明显高于传统算法。然而该技术还有很大的提升空间,实际目标检测还有许多问题有待解决,如检测目标较小等问题,因此对算法的要求越来越高。本文主要做了以下工作:
本文总结了国内外目标检测研究现状,介绍了基于区域的卷积神经网络的发展,并进行比较分析。针对基于区域的卷积神经网络方法因生成建议区域不准导致结果准确率低的不足,本文从以下方面进行改进:
(1)使用分水岭算法对图像进行预分割。对原始图像进行预分割,提高了产生的候选框包含目标的概率,为后续得到高质量候选框做了充分准备;
(2)改进的锚框生成方法。把预训练中出现频率最高的真实尺寸作为初始锚框,然后根据锚框的面积以及长宽比生成多尺寸锚框,该方法提高了目标候选框的质量;
(3)对候选框采用投票方式的筛选方法。对候选框以投票的方式进行筛选,然后将筛选的候选框的信息都综合起来得到物体信息,从而可以充分地利用候选框的信息。
本文选择Faster RCNN(Faster Region Convolutional Neural Networks)作为目标检测框架,以Logo作为实验检测目标。从结构上,对比分析不同类型的卷积神经网络的特点,并在BelgaLogos数据集上对它们分类性能进行验证,最后确定最佳Logo分类网络。在Flickr Logos-16数据集上进行Logo检测实验,选择三种不同的卷积神经网络VGG16(Visual Geometry Group 16)、ZFNet、ResNet50(Residual Network50)作为改进后的Faster RCNN的共享卷积层,实验证明将ResNet50作为共享卷积层的检测,得到的Logo检测结果最好。