论文部分内容阅读
在对人类活动行为分析中,从图像或视频中精准地刻画出人体的三维运动姿态尤为关键,其能够为人类行为的感知和识别提供重要的研究基础,对促进人类智能系统(如:自动驾驶、人机交互、以及智能监控)的发展是至关重要的。三维人体运动姿态估计是近年来国内外的研究热点,其主要任务为从给定的二维图像或者视频中重构出人体的三维运动姿态。在三维人体运动姿态估计算法中,常用的两类策略为基于判别式的方法和基于产生式的方法。虽然两类策略均取得了一系列的进展,然而,面对着诸如单目视觉中的深度歧义、人体姿态的非刚性复杂形变以及图像观测空间中的杂乱场景等各类挑战,现有的人体三维姿态估计技术中仍然存在许多关键性的问题亟需解决。本文针对三维人体姿态估计中存在的具体问题,采用模式识别中的关键技术,如基于稀疏表达的几何建模、基于深度学习的特征捕获等开展了一系列的研究工作。本文的主要研究内容如下:(1)提出基于残差补偿的加权稀疏表达算法尽管稀疏表达模型能够有效地缓解三维人体姿态估计任务中因投影深度歧义性而引发的推理模糊问题,其仍然存在两种类型的估计误差(即:采用l1凸近似下的稀疏系数的解误差,二维投影空间近似推理下的三维空间残差)。针对这两类误差带来的影响,提出了两种施加在标准稀疏表达模型上的增强方案。首先,提出一种增强稀疏线性组合的加权方案以求得更为准确的稀疏系数解。其次,通过建立二维投影空间的源残差与三维空间的目标残差之间的一个变换关系,直接在三维空间中调整了初始估计的三维人体姿态以提高最终估计的精度。此外,还提出了累积误差最优化策略,该策略通过施加源残差到优化方程中以扩大均方误差的统计范围,缓解模型优化过程中随机扰动的影响。提出的两种增强策略的有效性已在若干个标准的基准数据库上进行了实验验证。标准稀疏模型经过所提方案的增强后在所有定量研究中均得到了提升。与无监督学习方法的对比,提出算法显示出了优越性能。即便是与基于监督学习方法,如:基于深度学习的算法相比,提出算法在采用更少的训练样本的情况下,依然展示出了有竞争力的估计结果。(2)提出基于多几何先验的形状分解算法稀疏表达模型具备捕捉人体姿态复杂变化的能力已在三维人体姿态估计任务中得到了体现。然而,大多数基于稀疏表达模型的算法(包括第一项工作)均基于训练样本足够多样的假设。遗憾的是,现有室内采集的训练数据的多样性和复杂性往往无法满足真实场景中的人类活动,导致大多数三维人体姿态估计算法难以泛化到真实复杂场景中。针对此问题,提出一种基于多几何先验的形状分解算法。该算法缓解了稀疏表达模型因训练集多样性不足而造成的算法性能下降问题。首先,提出了形状分解模型,将一个复杂的三维人体姿态描述为全局结构和姿态形变两部分。然后,对于这两部分的编码,分别引入两个不同的先验约束(即:l1和l2),以得到稀疏和稠密分布的两组不同组合系数解。其次,提出一种联合字典学习方法以从有限的训练数据中获得更丰富的三维几何先验。实验表明,提出的多几何先验的形状分解算法的有效性在几个公认的基准数据库上得到了验证。特别地,提出算法在那些包含更多复杂形变的姿态中显示出了更为显著的性能提升。(3)提出基于隐结构监督的联合子空间学习算法大多数三维人体姿态估计算法(包括前两项工作)均对人体姿态进行向量化表征,这样的向量表征方式导致了人体关节固有结构的丢失。针对此问题,提出了一种隐空间监督联合子空间学习方法。该算法利用深度神经网络技术对输入的姿态的向量化表征进行隐空间特征捕获,并将捕获到的特征融入到一个无需成对样本的稀疏表达优化框架中。具体地,首先,训练一个端到端自动编码器捕获输入二维姿态向量表征中的隐空间关系。然后,将二维姿态的向量表征及其隐空间表征联合地输入到稀疏表达模型的优化框架中,实现了以人体关节的隐空间关系为监督的三维人体姿态算法。该算法在二维姿态空间和隐空间上进行优化。在几个常用的基准数据库上进行了实验,实验结果表明提出策略是有效的。与最先进的基于稀疏表达模型的方法相比,提出算法在所有定量评估中表现出了优越的性能。在与几种代表性的基于监督学习的方法相比,提出算法在无需成对训练样本的场景下也获得了具有竞争力的估计结果。(4)提出基于k层穿透表达的对抗攻击算法第一项至第三项工作旨在针对各类实际问题设计出性能优越的人体三维运动姿态估计算法。在本项工作中,为了给更为稳健可靠的三维人体姿态估计方法的设计提供启示,探索了一类以人体运动姿态估计为典型应用的坐标回归模型的安全性和稳定性问题。针对具有不可微运算的坐标回归模型,提出了一种新的对抗样本生成方法。该方法的新颖之处在于一个无需要端到端反向传播的带有关系指导的k层穿透表征,通过关系引导扰动第k层的隐特征分布来改变一个训练好的坐标回归模型的最终输出。具体地,建立输入像素与模型第k层隐特征之间的三种相关性精确地选择一小部分对隐特征有显著影响的输入像素。在生成对抗样本的过程中,仅修改这些仔细选择的小部分像素,从而显著地减少对干净图像的对抗扰动。本项工作成功地将提出算法应用到两种不同的任务(即:二维和三维人体姿态估计)中。广泛的实验表明,提出的对抗攻击算法在使用较少对抗扰动的情况下实现了有效的攻击,更好地揭示了已有人体姿态估计系统中的安全薄弱点。本文对人体三维运动姿态估计任务进行了较为系统且深入的研究。本文第一项工作从稀疏表达模型入手,针对基于稀疏表达的人体三维姿态估计算法中存在的两类误差,分别提出了加权稀疏及残差补偿策略。第二项工作从人体姿态数据出发,针对训练样本种类不足导致的基于稀疏表达的三维姿态估计算法泛化性差问题,提出了多几何先验的形状分解模型。第三项工作从人体姿态的表征出发,针对向量化表征中的结构丢失问题,利用深度学习的隐结构特征捕获能力,对稀疏表达模型的优化过程进行增强,提出了基于隐结构监督的联合子空间学习算法。以上三项工作旨在针对不同问题设计出性能优越的人体三维姿态估计算法,未考虑算法的安全性问题。为了给更为稳健可靠的人体三维姿态估计方法的设计提供启示,第四项工作对人体三维姿态估计算法的安全性和稳定性进行系统性的研究,提出了基于k层穿透表达的对抗攻击算法。在人体姿态任务的标准基准数据库上,针对不同问题及相应解决方案设计了一系列的实验,大量的实验结果验证了本文各项工作的有效性。