论文部分内容阅读
在计算机视觉领域中,动作识别一直是一个热门的研究问题。之前的动作识别主要基于视频数据,但近几年来随着深度传感器技术的发展,人体骨架数据变得容易获取,基于骨架数据的动作识别也逐渐成为一个重要的研究方向。骨架数据是人体动作的高维表征,其相比于视频数据有着数据量小、不受复杂背景与光照的干扰、鲁棒性强等优势。早期动作识别是动作识别任务的延伸,其不同之处在于早期动作识别需要在动作结束前识别出动作类型,从而能够让系统及时做出反应,缩短延迟时间。早期动作识别在危险预警、智能驾驶、人机协作等领域有着广泛的应用前景。
本文对近几年的基于骨架的动作识别和早期动作识别的相关工作进行了综述总结,从中可以看出,基于骨架的早期动作识别的相关研究还不充分,因此在本文中针对该问题进行了研究,其中主要内容和创新点如下:(1)提出了对抗式的自适应图卷积早期动作识别网络(Adaptive Graph Convolutional Network with Adversarial Learning,AGCN-AL)。动作的全局信息对于识别动作类型非常重要,但是早期动作识别无法观测到完整的动作执行过程,所以相比于动作识别来说更加困难。本文使用对抗式学习,使同一类型的部分骨架动作序列和完整骨架动作序列的特征在特征空间中尽可能的相近,从而挖掘部分动作序列中潜在的全局信息,提高网络对部分动作序列的识别率。通过在NTU RGB+D数据集和SYSU3DHOI数据集上进行实验,本文方法相比于其他方法表现出了更好地效果。
(2)为了防止网络对小观测比的部分动作序列过度拟合,提出了时间相关的损失函数。当观测到的动作时长占完整动作时长的比例越小(即观测比越小)时,部分动作序列所包含的信息也就越少,识别难度也就越大。为了加快网络收敛速度,防止过拟合,本文提出了时间相关的损失函数,减小对于小观测比的动作序列分类错误的惩罚。经过实验,相比于标准交叉熵损失函数,时间相关的损失函数效果更好。
(3)提出了多视角融合和骨架与视频融合等两类方法来进一步提高早期动作识别效果。针对单视角存在的遮挡问题,提出了多种多视角融合方案,显著提高了早期动作识别的准确率。针对骨架数据无法反映必要的物品信息的局限性,提出将骨架数据与视频数据相融合,来补充必要的场景信息。实验结果表明,两种数据融合能够大幅提高早期动作识别的效果。
本文对近几年的基于骨架的动作识别和早期动作识别的相关工作进行了综述总结,从中可以看出,基于骨架的早期动作识别的相关研究还不充分,因此在本文中针对该问题进行了研究,其中主要内容和创新点如下:(1)提出了对抗式的自适应图卷积早期动作识别网络(Adaptive Graph Convolutional Network with Adversarial Learning,AGCN-AL)。动作的全局信息对于识别动作类型非常重要,但是早期动作识别无法观测到完整的动作执行过程,所以相比于动作识别来说更加困难。本文使用对抗式学习,使同一类型的部分骨架动作序列和完整骨架动作序列的特征在特征空间中尽可能的相近,从而挖掘部分动作序列中潜在的全局信息,提高网络对部分动作序列的识别率。通过在NTU RGB+D数据集和SYSU3DHOI数据集上进行实验,本文方法相比于其他方法表现出了更好地效果。
(2)为了防止网络对小观测比的部分动作序列过度拟合,提出了时间相关的损失函数。当观测到的动作时长占完整动作时长的比例越小(即观测比越小)时,部分动作序列所包含的信息也就越少,识别难度也就越大。为了加快网络收敛速度,防止过拟合,本文提出了时间相关的损失函数,减小对于小观测比的动作序列分类错误的惩罚。经过实验,相比于标准交叉熵损失函数,时间相关的损失函数效果更好。
(3)提出了多视角融合和骨架与视频融合等两类方法来进一步提高早期动作识别效果。针对单视角存在的遮挡问题,提出了多种多视角融合方案,显著提高了早期动作识别的准确率。针对骨架数据无法反映必要的物品信息的局限性,提出将骨架数据与视频数据相融合,来补充必要的场景信息。实验结果表明,两种数据融合能够大幅提高早期动作识别的效果。