论文部分内容阅读
近年来,随着深度学习技术的快速发展,卷积神经网络已经成为解决视觉任务的标配,越来越多的研究者开始将卷积神经网络应用到各类计算机视觉任务中,并取得了不错的成果。手势识别是计算机视觉领域的经典任务,在新型人机交互中有着良好的应用前景。而手部姿态估计是手势识别中的关键技术之一,相较于传统的手势识别,姿态估计是对手部关键点的位置进行回归,因此在手势的估计上更加灵活,应用价值也更大。现阶段,3D维度上手部姿态估计算法居多,但其在应用场景上有一定的局限性。针对手部姿态估计算法在2D维度不足的现状,本文利用深度学习技术,结合具体任务中的难点重点,提出了应用在自然场景图片上的HandPoseNet网络,主要包括以下几点工作:(1)基于人体姿态估计任务中的CPM(Convolutional Pose Machines)网络,本文设计提出了Handposenet-V1网络,该网络能够对手部关键点的坐标位置回归有较高的精度;(2)通过提出新的Softmax归一化后处理(Post-processing)模块的设计,本文实现了端对端的HandPoseNet-V2网络结构,该网络在HandPoseNet-V1的基础上进一步提高了坐标位置的回归精度;(3)基于MobileNet网络中的深度可分离卷积核结构,在不损失太多回归精度的前提下,本文实现了在实际应用中处理速度更快的HandposenetV3 网络。本文提出的Handposenet网络及其衍生版本在现有的公开数据集RHD(Rendered Handpose Dataset)上,模型性能指标AUC(the area under the curve)由0.724提升到0.856,并且在实际复杂的自然场景中表现出了较强的泛化能力和鲁棒性。因此,本文提出的HandPoseNet网络,在2D手部姿态估计任务中,具有理论和应用的双重价值。