论文部分内容阅读
近年来随着通信5G技术以及国内互联网产业的飞速发展,在智能视频监控、自动驾驶汽车、智能家居以及时下兴起的网络短视频等领域每时每刻都在生产海量的视频数据,如何更好地利用计算机理解和识别视频中的行为信息从而为后续更多的决策提供辅助成为了相关行业和计算机视觉领域的一大重要命题。与静态图像相比,视频不仅包含空间场景信息,同时增加了时序上下文信息,这也对视频行为识别算法提出了更大的挑战。本文基于热门的深度学习技术,深入研究和改进了当前主流算法,对视频行为识别中存在的时空尺度问题,即不同的视频不仅在空间维度上可能存在主体尺度大小不同问题,在时间维度上也同样存在的不同持续时间和执行速率的问题,本文结合过去图像领域的一些相关处理方法以及自身进一步的思考,使用了三维卷积核解耦方法先将三维卷积拆分解耦成分别处理空间和时间特征的两个卷积模块,然后进一步地将两个模块进行拓展,提出了一种由并行多尺度卷积核所构成的时空多尺度模块,旨在能够提取包含更丰富尺度信息的特征。接下来本文又探索了一种特征通道、空间以及时间三个域上的注意力机制模块,旨在加强特征在三个域上重要区域的表现,使网络能够更好地训练。在实验部分中我们将多尺度卷积模块和多域注意力模块进行了整体的模块化嵌入到主流的三维卷积网络架构中,并使用了UCF101视频数据集进行了充分的对比实验,本文的算法在不添加多模态光流输入和大型数据集预训练的情况下取得了较优异的表现,最后本文又通过了进一步的实验验证了算法在存在较多时空尺度问题的运动类别视频上精确率相比普通三维卷积网络有较大提升,这也充分验证了本文结构与算法的有效性。