论文部分内容阅读
人体姿势估计是实现图像理解和行为识别的关键技术。但是,自身的遮挡,衣着的变化,面内和面外旋转等情况,导致了人体姿势估计问题一直没有得到很好的解决。近年来,深度学习技术的发展为解决姿势估计问题提供了新的工具。与浅层机器学习算法相比,深度学习的模型具有更深的层次,因此具有更强的学习能力。但是,深度学习本身也存在很多待研究的问题,例如,深度学习有效性的理论分析,深度模型在实际应用中难以训练的问题。如何针对姿势估计问题设计深度模型也还有待进一步的研究。本文梳理了姿势估计技术和深度学习技术的发展历程。在此基础上,提出了一种用于姿势估计的适应性全效表达框架。该框架能够同时利用全局和局部视觉线索来准确地估计出人体姿势。特别地,适应性全效表达框架主要包括两部分:(1)全效部分,即全局模型。它可以快速地定位人体关节,生成一个整体正确的人体姿势;(2)适应性部分,即局部模型。它可以在潜在区域的基础上进一步提高姿势估计的精度。全局模型是该框架的核心,它主要实现三个功能:第一,快速定位人体关节;第二,生成潜在区域,为局部模型缩小搜索空间;第三,作为空间模型,与局部模型融合,输出更精确的人体姿势。全局模型通过一种叫做独立损失网的卷积神经网络来实现上述功能。在独立损失网中,姿势估计被定义为关于人体关节坐标的分类问题。独立损失网具有两个独立的输出层,用于分别预测关节坐标的两个维度,并且使用独立的损失函数来指导网络的训练。在姿势估计的适应性全效表达框架中,全局模型自身具有完整性,而局部模型是对全局模型的补充。该框架的灵活性使其可以满足不同场景的要求。在多个数据集上的测试结果表明,在保证姿势估计准确率的同时,与现有方法相比,本文框架能够更加高效地进行人体姿势估计。