基于动作演变的人体行为识别研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:qwer32173
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
行为识别是计算机视觉中的一个热点问题,在视频监控、视频检索、人机交互、运动仿真与合成等领域都有应用。随着数码相机和互联网的广泛使用,行为识别研究由之前受控的场景转移到现在真实的场景中。基于局部动态特征编码的方法把视频中的所有局部特征看作一个集合并采用一个编码来描述整个视频,因此不能描述行为的全局运动和动作在时间上的演变。基于卷积神经网络(Convolutional Neural Networks,CNN)的方法训练时采用单帧或者很短的序列作为输入,因此不能学习到视频中的全局运动特征。随着深度传感器和人体姿态估计算法的发展,从深度图像中可以实时准确地估计人体关节点的坐标,因此基于人体关节点的行为识别的研究变得流行起来。一些端到端的基于递归神经网络(Recurrent Neural Networks,RNN)的方法被用来从原始的关节点数据中学习行为的表示并直接预测行为类别,但这些方法只考虑了孤立的关节点坐标随着时间的变化特性,忽略了关节点之间的空间位置关系和几何结构关系。针对前人研究存在的以上问题,本文主要研究基于动作演变的人体行为识别,具体工作如下:  为了学习视频中的全局运动特征,我们提出基于层次化特征演变的行为识别模型。模型分为两个主要步骤:单帧特征表示和层次化特征演变模型,其中,单帧特征表示考虑了两类特征:局部动态特征和场景特征。单帧局部动态特征表示采用改进的密集轨迹提取局部动态特征,并对视频的每一帧进行编码。单帧场景特征表示首先在大规模图像场景识别数据库上训练CNN模型,然后用训练好的CNN模型对视频帧提取场景特征。层次化特征演变模型首先把视频划分为多个片段,并对每个片段采用一个排序模型学习帧之间的序列关系,并把排序模型的参数作为片段的局部动作描述。然后,我们对这一系列时间上的局部动作再次采用一个排序模型学习片段之间的序列关系,并把排序模型的参数作为整个视频中全局运动的表示。  为了利用人体关节点之间的空间位置关系,我们提出基于双流RNN的人体关节点时间演变和空间关系的行为识别模型。该模型有两个通道:时间通道和空间通道。时间通道采用基于RNN的方法学习人体关节点在时间上的变化特性,我们比较了两种RNN结构:多层RNN和层次化RNN。空间通道是为了学习人体不同关节点在空间上的依赖关系,考虑到不同关节点根据物理连接可以组成一个图的结构,我们提出两种把关节点图转化为关节点的序列的方法:关节点的链条序列和关节点的遍历序列,并把关节点的序列作为空间RNN的输入。为了防止网络训练过拟合并提高模型的泛化性能,我们提出三种基于3D坐标变换的数据增强的方法:旋转变换、尺度变换和剪切变换。  为了利用相邻关节点之间的几何关系,我们提出基于关节点几何演变的行为识别和检测模型。我们把行为看作是由人体关节点组成的图的序列,根据身体的物理结构设计了三类几何输入:节点、边和平面。节点是孤立的人体关节点的坐标,边是连接物理上相邻的两个关节点的人体骨骼,可以采用这两个关节点的相对坐标来表示,平面是由物理上相邻的两个骨骼所在的直线所形成的平面,它表示人体部件,采用平面的法向量来表示。我们分别推导节点、边和平面在3D空间的旋转矩阵,并发现对于同一个序列,它们的旋转矩阵是相同的。我们把该模型用到行为识别和行为检测两个任务中,并提出了一个包含视角转换层的基于RNN的结构。对于行为检测,我们首先采用上述基于RNN的结构做单帧的行为分类,然后,提出一种新的多尺度滑动窗口搜索算法根据单帧的预测概率判断序列中包含的行为类别及对应的起始帧和结束帧的位置,该算法可以检测到持续时间任意长的行为。
其他文献
近些年来,随着电机、电力电子、微处理器以及其相关技术的迅猛发展,直流无刷机(BLDCM)无传感器控制作为一项新技术被广泛应用.该课题基于TI公司数字信号处理器(DSP)TMS320LF2
近些年来,随着全球工业4.0概念以及中国制造2025概念的提出,国内国外的工业发展正朝着智能化,集群化和复杂化的方向飞速的发展。高并发量故障发生的概率也随之增大,而且故障不易
在工业控制中,广泛使用PID控制器,原因在于PID控制器结构清晰,参数可调,可在现场根据实际调节参数而取得较好的控制效果.但是,PID控制器也存在参数调节需要一定过程,最优参数
现代工业过程中的控制对象大都具有一定的非线性,将控制理论应用于非线性系统存在着许多困难,预测控制与智能控制的相结合是目前的研究热点。预测控制是一种基于模型的先进控制
Chirp信号(线性调频信号,LFM)是信号处理领域中一种非常重要的信号,被广泛的应用于通信、雷达、声纳、地震探测、地质勘探、医学成像等众多的研究领域。对Chirp信号的研究无论是
红外运动模拟器的控制问题,一般意义上讲可以归结为对两轴交流伺服电机的控制,通过计算机控制X-Y两台伺服电机来模拟飞行器的空间运动轨迹.运动模拟器要求较高的速度和轨迹精
基于互高阶累计量的谐波恢复方法的研究是人们在理论和应用上向信号处理更深层次探索的结果。与其它方法相比,互高阶累计量具有更加突出的噪声抑制能力。而状态空间模型的提出
该文对山羊股骨骨折愈合过程中断面应力变化的实验数据进行了研究,在理论和实践的基础上建立了断面应力与愈合时间的数学模型,并将实验曲线和Jorgensen曲线进行了对比,求出实
本文针对原始果蝇优化算法的缺点加以改进,并在单目标和多目标问题上进行研究分析,最后以GE气化炉为研究对象,以有效合成气产率最大化为优化目标,氧煤比和水煤浆浓度为决策变量,对
医学图像的分析与处理是图象处理技术应用的重要分支,同时由于医学图像的特殊性,使之一直成为广大图像处理工作者的研究对象.该课题的研究目的主要有两部分:一是结合小波变换