论文部分内容阅读
让计算机理解人的行为活动是人机交互和人机协作的前提条件。机器学习理论的快速发展使基于视觉的人体活动分析研究日臻成熟。有些领域的发展水平已可以满足实用需求,比如指纹识别与人脸识别。有些领域的发展水平则相对欠成熟,比如动作识别与手势姿态估计。作为人体活动分析的两个重要分支,动作识别与手势姿态估计为人机交互和人机协作有关应用提供了理论解决方案。本文研究了图像和深度图中的动作识别与手势姿态估计: 提出了两种由分层表示实现空间建模的静态动作识别方法。第一种方法以SIFT为局部特征描述子,利用Fisher向量编码SIFT,以空间金字塔为分层表示策略。第二种方法采用最新的八种预训练深度网络提取特征,以包含重叠区域的划分为分层表示策略。 提出了一种有监督时间序列分割导出的离线动作识别方法。提出的方法构建在结构化时间序列框架下,将三维骨骼视为多维空间中的一个点,利用动态时间归整(Dynamic Time Warping,DTW)解决动作执行速率变化问题。每个训练序列作为字典中的原子用于岭回归(Ridge)实现的协同表达,根据协同表达得出的重建误差完成动作分类。鉴于重建误差在l2-范数意义下连续地度量了测试序列和训练序列的相似性,进而提出了一种有监督时间序列分割算法。提出的算法除了可以用于离线动作识别,还可以用于运动序列分割和其他一般时间序列分割。 提出了两类将深度图和三维骨骼序列相结合的在线动作识别方法。第一类方法采用三维骨骼序列中的成对相对关节位置描述人体姿态,采用源于深度图的局部占有模式(Local Occupancy Pattern,LOP)刻画交互物体的形状,通过K-SVD为每个动作从训练序列中学习一个可视为冗余数据紧凑表示的字典,帧层次动作识别由正则化线性回归实现。第二类方法利用深度运动图(Depth Motion Map,DMM)描述动作。为了将传统意义上用于离线动作识别的DMM扩展到在线动作识别,提出了一个离线随机分割算法和一个在线顺序分割算法来生成DMM所需的子序列。为了增强DMM对静态动作和差异仅在姿态时序的动作的判别能力,引入三维骨骼位置和速度作为DMM的互补描述子。 提出了一种基于深度残差网络的手势姿态估计方法。为了凸显残差模块的改进作用,首先搭建了一种普通深度网络,分析了批次标准化对其产生的影响。在此网络基础上引入了残差模块,从网络宽度和网络深度两个方面对搭建的深度残差网络进行了优化,并且研究了瓶颈层的作用。 提出了一种深度相机动态跟踪性能测定方法。传统测定方法重点研究深度相机的静态测量精度,但是动作识别与手势姿态估计更关注深度相机的动态跟踪性能。为了探索深度相机是否已经成为制约动作识别与手势姿态估计发展的硬件瓶颈,以Kinect v2和Intel RealSense SR300为例借助于数控直线滑块导轨机构系统地研究了被跟踪物体相对于深度相机的位置、运动速度、运动方向对深度相机跟踪准确率产生的影响。 基准数据集上的评估实验表明,提出的动作识别与手势姿态估计方法几乎均可以与最新的方法相媲美,有的方法甚至打破了现有最佳记录。深度相机的动态跟踪性能测定结果表明,在不考虑人手检测的情形下深度相机即将成为制约手部动作识别与手势姿态估计进步不可忽略的因素。为了适应新方法的提出,有必要采用更高精度的深度相机发布标注更准确的基准数据集。