论文部分内容阅读
人体动作识别是计算机视觉领域的一个重要研究方向,在智能监控、视频理解、人机交互、辅助驾驶等众多方面都有着巨大的应用需求。本论文对人体动作识别当前研究现状进行了综述总结,在此基础上,对基于视频的动作识别和基于三维姿态的动作识别进行了进一步的研究。针对基于视频的动作识别方法的实际应用,论文设计并实现了一个实时在线的动作识别系统。为应对实际应用中的多项问题,系统设计包含了目标检测、目标跟踪、光流修正、动作识别及后处理等多个模块。目标检测和目标跟踪是实际应用中的重要预处理步骤,通过对目标进行定位,系统能够集中处理目标区域图像,从而大大减少了多变环境带来的干扰,也保证了系统在不同环境下的适用性。在动作识别模块中,系统采用了一个基于光流的CNN网络,以目标的叠加光流图像为输入,对动作进行分类。在光流修正模块中,论文对相机运动造成的光流进行了消除,抑制了相机运动对于目标动作的影响。论文对整体系统进行了整合和优化,使之达到了实时运行的标准,能够应用于真实场景下的在线动作识别。论文对基于三维姿态的动作识别进行了进一步的方法研究,提出了一个基于注意力机制的多视角重观测融合模型。注意力机制是一种对重要特征给予更多关注来帮助提高特征表达性能的方法,模型中结合LSTM网络提出了对于特征的多层注意力增强的方法,通过在网络的多层中叠加进行注意力操作来提高网络的性能。考虑到观测视角在动作识别中的重要影响,模型中提出了多视角重观测融合方法,对动作进行多视角的重新观测并融合观测结果来提高动作识别性能,并且模型通过视角融合中的注意力操作,学习根据动作序列信息寻找适于识别的观测视角,进一步提高动作识别的效果。整体模型整合为一个端到端的网络模型,在主流数据库上取得了当前领先水平的动作识别效果。