论文部分内容阅读
随着计算机视觉和互联网技术的迅速发展,行为识别技术在智能视频分析和人机交互领域中的应用越来越广泛。该领域的一个核心问题就是如何建立一个高效的运动模型来捕捉视频中的运动信息。针对该问题,提出了一种基于自监督方式的分层对比运动学习框架,用于从原始视频帧中提取有效的运动表示。具体来说,该方法通过逐步学习网络中不同级别的层次化运动特征,从而减小了低层运动信息和高层识别任务之间的语义鸿沟,促进了多层次外观和运动之间的信息融合。我们提出的运动学习模块具有轻量化、灵活度高等特点,方便嵌入到现有的各种深度网络。从4