论文部分内容阅读
目标检测技术在人们生活中有着广泛的应用。传统的目标检测技术于对于变化多样的目标没有很好的鲁棒性,遇到了难以逾越的瓶颈。随着深度学习技术的发展,卷积神经网络相较传统目标检测技术有更高的准确性和鲁棒性,然而作为一种计算密集型的算法,基于深度学习的目标检测算法在便携式设备上的实现面临着巨大的挑战。理论上two-stage检测器具有更高准确度,但需要消耗大量计算资源和计算时间。one-stage框架下Yolo系列的目标检测算法通过单个卷积神经网络的处理,便可获取预测边界框和类别概率,其检测速度更快,结构更简单。特别是Yolo V4的横空出世在速度和性能上都取得比较好的成绩,且能够被并行优化。综合GPU、ASIC、FPGA三种芯片在数据处理方法、速度、功耗、价格等方面的优劣,最终选由双核ARM+FPGA的异构平台Zynq展开部署研究,主要的研究内容如下:1.在Yolo V4网络模型的模础上,根据嵌入式平台计算和存储资源特点,提出了一种Yolo V4-sim模型。权衡计算延时和精度损失将深度学习算法中的32位浮点型数据量化为8位整型,并优化整个模型的归一化方式,提出BGN(Batch Group Normalization)去替换BN(Batch Normalization),将通道、高度和宽度三个维度合并为一个新维度,将新维度划分为特征组,计算整个小批和特征组的统计量。在预测框提取部分采用边界点增强的提取策略,减少冗余框的数量并过滤掉有害的背景信息。2.根据卷积神经网络硬件加速的基本原理,提出用分层卷积和点卷积去简化计算复杂度,并提出数据旁路思想来提升准确度,并在32bit-8bit量化推理算法的基础上,匹配嵌入式INT16寄存器的特点去设置乘累加防溢出条件约束,虽然检测的平均精度m AP下降了5%,但检测速度提升了6倍左右。3.在PC端进行模型训练,获取特征/权重参数,在Zynq7020搭建软硬件协同设计的目标检测系统,实现Yolo V4-sim模型的实时目标检测。本文基于深度学习的便携式目标检测系统展开研究,权衡检测精度、算法复杂度、功耗、速度等因素的影响,最终实现了低功耗、低成本、高实时性的目标检测系统的设计,检测精度达到了71.7%,目标检测速度达到了24FPS,为以后基于深度学习的目标检测算法的部署及其硬件实现的加速研究提供一定的参考价值。