论文部分内容阅读
视频是人们日常生活、工业生产以及安防领域的重要信息来源,视频结构化是计算机视觉的重要研究领域之一。视频结构化技术,就是打破视频文件的空间与时间维度,将关键信息提取出来进行扁平化展示的技术;视频结构化的过程,就是跨时间维度提取关键信息并归类的过程。在嵌入式环境下实现初级的视频结构化功能,可以在视频采集端对视频进行分析,筛选掉视频中无分析价值的时段与内容,并将筛选出的关键信息回传至后端服务器,与传送原视频相比,可以大大减少占用的网络带宽以及减轻后端服务器的运算与存储压力。近年来,随着深度学习技术的迅猛发展,一大批基于深度卷积神经网络的图像识别、目标检测、轨迹跟踪、人脸识别等算法被提出,在检测速度与准确率上相较于传统的图像处理算法有着巨大提升。同样,随着嵌入式设备与卷积神经网络加速设备的快速发展,人们可以将在GPU(计算机图形处理器Graphics Processing Unit,GPU)上训练出的大型深度卷积神经网络部署在低功耗嵌入式设备上,这使得在嵌入式平台上部署视频结构化系统成为了可能。本文首先分析了本系统所涉及深度学习相关基础理论以及卷积神经网络的构成,通过对比分析Alexnet、VGG、Resnet等主流图像分类网络以及Faster RCNN、Yolo等主流目标检测网络的算法原理、运行速度、参数体积、准确率以及嵌入式设备适用性等因素之后,选择SSD300作为视频结构化算法的目标检测网络,并探讨了不同基础网络对SSD300性能的影响,最终选用Mobilenet作为基础网络构成Mobilenet-SSD,在几乎没有精度损失的前提下,将网络的体积从105MB缩减至22MB,并采用迁移学习神经元裁剪的方法,修改了 MobileNet-SSD的网络结构,在保证准确率的前提下将网络体积再减小至Mobilenet-SSD的63.2%,进一步降低网络的参数数量与计算量。此外,为提高系统在高空俯视角度下的准确率,本文针对应用场景构建了专用数据集,对所选网络进行了适应性训练,提升了系统在应用场景下的准确率。最后,选用英特尔Up Core开发板+神经计算棒(NCS2)的硬件环境,在OpenVINO开发框架下实现了基于深度学习的嵌入式视频结构化系统,可对前端摄像头传回的视频画面进行分析,提取视频中出现的人员、车辆等物体,实现车辆颜色与种类等高级属性分析、敏感区域检测功能。经实验测得,本系统可以在在嵌入式平台实现对1080P分辨率输入视频源的20FPS的实时结构化解析,并支持将检测结果传输至后端服务器。