论文部分内容阅读
近些年,在安防和人机交互等领域,人体姿态估计所扮演角色的重要性正在增加。视觉信息在人类活动中占有很大的比例,而人体的动作则是视觉信息里最直观也是最容易获取的,而且人体姿态估计到的信息可以完美的融合到视频中去,对于视频中人的行为理解也是必不可少的,因此有效的捕捉到人体的姿态并进行估计,就变得很重要,尤其是在当今这个数字时代,随着各种终端和移动端的视觉设备的应用,人类对姿态估计的理解变得更加迫切。由于设备采集的图片存在着模糊、尺度变化不一、人体姿态各异、分辨率不一致等问题,使得同时解决所有问题变得比较困难,再加上视频中存在着额外的影响因素,导致对其理解变得更加困难,为了有效进行人体的姿态估计,本文提出了一种基于深度卷积神经网络的人体姿态估计方法,并结合行人重识别等相关技术将单帧图片上的人体姿态估计引入到视频中,进行视频中的人体姿态跟踪。本文的主要工作和贡献为:(1)提出了用于单帧图片人体姿态估计的级联金字塔网络。该算法以深度卷积神经网络为基础,将网络分为全局网络和精调网络两个步骤。在残差网络的基础上直接使用特征金字塔结构去融合不同尺度的图像特征,从而避免了在输入端的多尺度输入,实现全局网络下的人体关键点的大致估计,在此基础上,对特征金字塔的每一个输出分别进行单独的处理,并在最后进行拼接用来对之前估计的关键点进行精调,同时在这里使用了在线难样本挖掘技术,对那些比较难解决的“困难点”进行学习。整个网络是端到端进行训练的,使用了全局网络和精调网络相结合的中继监督方法,能够使得两个网络相互补充,有利于整个网络的学习。实验结果也表明,本文提出的方法十分有效,在精度上取得了目前最好的结果。(2)提出了用于视频中的人体姿态跟踪算法。该算法利用基于局部对齐的行人重识别技术,将其作为外观模型进行人体的特征提取,创新性地使用单目标跟踪算法去解决多目标跟踪的问题,单目标跟踪算法不仅可以生成小段轨迹,而且可以对漏掉的视频帧进行差值补全,还能增强轨迹的平滑。而多目标跟踪则是利用设计的一系列规则将小段轨迹拼接成完整的轨迹。在具体实现过程中,除了利用行人再识别技术进行特征提取进行相似性度量之外,还用到了框与框之间的交并比,重复利用了视频的时空信息,更具有鲁棒性。最终的实验结果也表明,本问题提出的方法是很有效的,而且很有竞争力。本文在MSCOCO和Posetrack两个关于人体姿态估计的公开数据集上都做了充分实验,实验结果表明了本文提出方法的合理性和有效性。