论文部分内容阅读
近年来,随着深度学习领域的火热发展,基于深度学习的许多领域如雨后春笋般快速发展,其中对于人体姿势估计就是一个热门研究方向,并且已经取得了巨大的成果,例如卡内基梅隆大学发布的openpose。然而关于婴儿的动作理解和分析领域目前还是一个孵化期,基于此,本文首次将当下的最先进的姿势估计模型通过迁移学习对婴儿姿势估计展开研究,主要的研究内容有以下三点:第一,本文首先研究单个婴儿姿势估计,选取经典网络架构stacked hourglass作为预训练模型,构建单个婴儿关键点数据集,采用关键点正确比例(Percentage of Correct Keypoints,归一化采用头部长度,即为PCKh)衡量性能,在测试集上PCK@0.5达到了90.8%,一幅图像平均处理时间为0.2秒。尽管性能较高,但是对于复杂的多个婴儿的情况不能抓取到姿势,会出现误判。第二,为了让模型更加实用,从多个婴儿的角度展开研究,选用当下的明星架构openpose作为网络架构,以tensorflow重构原来的caffe架构,仿照COCO构建多婴儿关键点数据集。本文提出了基于openpose的3-stage模型,然后分别对openpose,训练后的6-stage模型,以及本文的3-satge模型进行实验,其中6-stage和3-stage性能均优于openpose。对于单婴儿情况,6-stage和3-stage分别为91.1%和90.0%,在多婴儿的平均精度均值(mean Average Precision,mAP)比较中,6-stage和3-satge分别为76.8%和75.7%。结果基本在一个精度水准,但是运行时间相比,3-stage单幅图像约为0.22秒,较之于6-stage的约0.4秒几乎提升了一倍。证明了在婴儿的应用场景下,3-stage的调整是成功的,即为本文的创新模型——基于openpose的3-stage婴儿姿势估计预测模型。第三,将本文的3-stage预测模型应用于视频婴儿姿势估计,对视频采用跨帧处理,结果表明,无论是光线昏暗还是明亮,都能实现对婴儿的姿势准确定位,其中对于单个婴儿视频FPS数值为11,多婴儿视频FPS数值为8秒左右,初步达到视频的跟踪估计。总体来说,本文以深度学习为背景,以迁移学习为指导,借鉴前人的网络模型架构,准备本文的婴儿数据集,分为单婴儿和多婴儿两大路线展开研究,最终确立了基于openpose的多婴儿架构为核心,提出了本文的基于openpose的3-stage婴儿姿势估计预测模型,实现了基于视频的婴儿姿势估计。