论文部分内容阅读
分类与检测是计算机视觉中两类最基本的任务,也是其他复杂计算机视觉任务的前提。自计算机视觉这一概念诞生以来,在目标检测领域获得高的表现就一直是人们努力的方向。人工神经网络是较早提出来的用于处理数据处理方法。早期,受限于处理器性能以及神经网络的全连接结构,将人工神经网络应用于目标检测任务的效果不尽如人意。近年来,伴随着图形处理器性能的提升以及各种数据大量的累积,用人工神经网络的方式来执行计算机视觉中的目标检测任务成为一个可行的选择。卷积神经网络的出现之后,深度学习在目标检测任务中不断取得比已有记录更好的表现,因此,将深度神经网络应用于目标检测已经成为一个研究热点。本文借鉴已有的深度学习方法,采用一定的方法简化网络结构,尽可能地兼顾速度、精度。本文提出一种以YOLO为骨架的一阶深度检测网络。它运用可分离卷积的操作。新提出的网络较好地兼顾了速度、精度,可以移植到安卓等嵌入式设备上运行。主要研究内容如下:1、介绍了目标检测的发展历程、目前的研究现状,包括目标检测的任务、评价标准、主要的公开数据集,以及目标检测中所用到的两大类算法。2、调查大量的文献,从人工神经网络的提出、工作机理到它的发展历程逐一作详细介绍。介绍和分析了两大类用于目标检测的深度卷积神经网络:一阶网络和二阶网络。并且分析了它们各自的优缺点。3、通过公式推导分析了深度神经网络主要的参数调优方法——反向传播算法。同时介绍了数种用于参数更新的梯度下降方法以及通过公式推导指出了在通过反向传播算法来进行参数调优过程中会出现的梯度爆炸和梯度消失问题,并列举了数种解决或者缓解这种现象的措施。4、查阅大量的文献,从主要思路和公式推导两个方面详细介绍了现今主要的神经网络压缩方法,其中包括了本文将采取的可分离卷积操作。5、基于前面所提4点,提出一种以YOLO网络为骨架的深度检测网络。该网络采用了可分离卷积模块、使用了预测相对坐标的方式来代替YOLO预测绝对坐标的做法,同时摒弃了最后一层采用全连接层的做法,改用多个连续的标准卷积层代替全连接层。在数据集方面,混合了COCO数据集和Pascal VOC数据集,同时使用了聚类的方法,确定了先验框的数量和坐标。运用分阶段运用不同梯度下降算法的方法进行了参数的调优工作。实验结果表明,YOLO网络的参数数目为56.24 M,本文提出的网络参数个数为7.8 M。YOLO在Pascal VOC数据集中测试的mAP为64.3%,本文提出的网络则为51.1%。在上位机上,经过压缩后的神经网络推理运算速度提高了2倍。实现了在极大精简参数数量的前提下,精度下降不太多。最后,用安卓平台的应用程序,将获得的网络部署于安卓平台,实现从摄像头获取图片并进行目标检测。