论文部分内容阅读
面向边缘智能的视频行为识别技术一直是计算机视觉研究的热点方向。该技术将直接推动多媒体物联网和工业物联网相关应用的发展。在基于深度学习的视频行为识别边缘智能应用中,其核心思想是基于深度学习在特征学习方面的优势,构建轻量型视频行为识别网络,能够部署到边缘端设备上来,以支持基于边缘技术架构的多媒体物联网应用系统,从而为实时视频行为识别相关应用奠定技术基础。事实上,现有基于深度学习的视频行为识别模型研究主要依托于空间特征和时序特征构建联合网络来提升整体网络模型的识别准确率。然而深度学习非凸优化的参数训练模式让深度学习网络模型在训练的过程中产生了大量的参数,其参数量远远超过了边缘设备的计算能力和存储能力,为网络在边缘设备上的部署带来了巨大挑战。为此我们针对这些情况重点研究了两个方面的问题,一方面,研究更加有针对性的网络对视频时域特征进行编码,来实现整体网络模型性能的提升;另一方面,针对现有模型存在内存资源消耗过大难以部署等问题进行了研究,实现深度学习模型压缩,旨在为深度学习模型在边缘设备上的部署奠定应用研究基础。本文的主要内容和创新点如下:1.针对long-term时域特征学习困难的问题,本文提出了基于双流注意力机制的LSTM网络模型。该网络针对原有视频帧和光流特征图像,可以有选择地关注原始输入图像的有效特征,并对每个深度特征图的输出给予不同程度的关注。此外,考虑到两个深度特征流之间的相关性,提出了一种深度特征相关层,可以根据特征关联信息指导网络参数训练。实验结果表明,本文提出的改进的深度学习模型可以有效地提取长期特征,并且比同类其他算法具有更强的竞争性。2.针对骨架时空特征学习问题,本文提出了一种基于人体骨架的双流深度学习行为识别算法,并分别将提取的特征表示为伪图像参与训练,提高识别的准确率。与此同时,在特征融合时,提出了在全局平均池化层进行融合的策略。该方法可以有效避免传统的后融合策略中时空特征相互隔离的缺点,在一定程度上提升了识别准确率。另一方面,针对现有深度学习模型参数量大难以部署的问题,提出基于教师模型Tucker分解的知识蒸馏算法来有效提升学生网络的学习能力。实验结果表明,本文所提出的骨架行为识别算法模型相对于同类型的算法有着更好的识别率,与此同时教师模型的Tucker分解的知识蒸馏算法能让学生网络模型获取更好的性能。3.针对如何设计轻量型的图像分割网络来实现对人体行为视频场景分割,本文提出了基于改进型Faster-RCNN轻量型网络模型,一方面利用改进的FasterRCNN算法,对视频帧的背景内容进行识别和定位,精准地把视频背景区域内容提取出来;另一方面,对于提取出的背景区域,提出一种改进型的图片相似性度量方法,并在相邻帧之间进行比较,从而根据背景信息的一致性来判断视频帧是否属于同一片段。另外为了进一步减少深度学习模型的网络参数,结合朴素贝叶斯推断算法来优化通道剪枝算法的比例,实现了原有的深度学习模型参数减少。实验结果表明在参数减少30%的基础上,该算法相对于基于固定框的场景分割算法具有更好的性能。4.针对如何构建轻量型深度学习模型生成高质量的语言对视频人体行为理解进行描述,本文从两个方面着手研究,一方面从特征提取的角度,提出了空域和时域特征相结合,有效地对视频进行编码,在参数训练阶段,联合强化学习增强训练的策略使得生成的描述更加精确。另一方面,为了提升训练的效率,重点研究了基于Tensor-Train张量分解的算法,并结合基于基因分解算法研究自适应指导选择最优秩的方案,从而使得前向推理的计算量尽量减少,最终实现推理模型的参数进一步减少,使得前向推断的速度明显改善。实验结果表明本文所提的网络模型具有更好的性能,基于Tensor-Train张量分解模型相对于传统的算法也有着明显的优势。