论文部分内容阅读
随着近几年计算机软硬件技术的蓬勃发展,各种人机交互游戏与应用被广泛普及。人体姿势估计是众多人机交互任务的基础,它通过准确估计图像或视频信息中人体各个关节点的坐标,完成对人物的动作识别和行为分析,从而为人机交互设备提供下一步的操作数据,因此它是人机交互系统必不可少的重要部分。人体姿态估计算法可以分为传统的基于图模型的方法和现阶段的基于深度学习的方法。传统的基于图模型的方法将人体视为一系列具有强相关性的部件,使用图像结构模型来模拟人体每个组件的外观模型和组件与组件之间的空间约束,并利用图形推理的方法来最后优化一下人体各个关节的位置。这类方法的算法准确度和算法复杂度成正比,子模型空间越大,能模拟的人体姿态越多,算法的计算量和复杂度就越高。与传统方法相比,基于深度学习的方法不需要模型先验知识,却能取得更好的效果。所以本论文基于深度学习实现了两个人体姿态估计网络,主要的贡献如下所示:(1)实现的基于FPN的two-stage R-FPN网络将残差模块和转置卷积应用于特征金字塔网络得到的多尺度融合的特征之上,它们在网络层数很深和上采样倍数很大的情况下仍然能取得不错的效果,之后通过多阶段的网络设计和多处中继监督点的设置,将多处预测的热力图和基于数据标注用2D高斯函数构建的热力图做L2损失计算,从而优化网络参数。以上措施的应用解决了原始特征金字塔网络对被遮挡的关节点定位不准的问题。(2)实现的Densely-hourglass Network通过巧妙的设计使经典网络Stacked hourglass network中的沙漏模块能像DenseNet网络一样进行相同通道数相同分辨率大小的特征图的紧密连接,从而达到在网络使用比较少参数的情况下都能实现很好的效果,之后通过网络中部分concatenate和BN操作的优化显存使用量的策略,达到了压缩显存使用量的目的,从而让我们能在有限的硬件条件下,训练出更深的网络。