基于深度卷积神经网络的人体姿势估计研究

来源 :电子科技大学 | 被引量 : 11次 | 上传用户:powermill1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人体姿势估计是实现图像理解和行为识别的关键技术。但是,自身的遮挡,衣着的变化,面内和面外旋转等情况,导致了人体姿势估计问题一直没有得到很好的解决。近年来,深度学习技术的发展为解决姿势估计问题提供了新的工具。与浅层机器学习算法相比,深度学习的模型具有更深的层次,因此具有更强的学习能力。但是,深度学习本身也存在很多待研究的问题,例如,深度学习有效性的理论分析,深度模型在实际应用中难以训练的问题。如何针对姿势估计问题设计深度模型也还有待进一步的研究。本文梳理了姿势估计技术和深度学习技术的发展历程。在此基础上,提出了一种用于姿势估计的适应性全效表达框架。该框架能够同时利用全局和局部视觉线索来准确地估计出人体姿势。特别地,适应性全效表达框架主要包括两部分:(1)全效部分,即全局模型。它可以快速地定位人体关节,生成一个整体正确的人体姿势;(2)适应性部分,即局部模型。它可以在潜在区域的基础上进一步提高姿势估计的精度。全局模型是该框架的核心,它主要实现三个功能:第一,快速定位人体关节;第二,生成潜在区域,为局部模型缩小搜索空间;第三,作为空间模型,与局部模型融合,输出更精确的人体姿势。全局模型通过一种叫做独立损失网的卷积神经网络来实现上述功能。在独立损失网中,姿势估计被定义为关于人体关节坐标的分类问题。独立损失网具有两个独立的输出层,用于分别预测关节坐标的两个维度,并且使用独立的损失函数来指导网络的训练。在姿势估计的适应性全效表达框架中,全局模型自身具有完整性,而局部模型是对全局模型的补充。该框架的灵活性使其可以满足不同场景的要求。在多个数据集上的测试结果表明,在保证姿势估计准确率的同时,与现有方法相比,本文框架能够更加高效地进行人体姿势估计。
其他文献
随着互联网和多媒体技术的快速发展,图像等多媒体信息呈爆炸性增长。传统基于文本的信息检索技术已经无法适应图像信息的检索需求,基于内容的图像检索成为一个重要的研究领域
多相流参数的检测技术是一个迫切需要发展的研究方向。但是由于多相流之间存在着相对速度和界面效应等问题,导致了多相流参数检测的难度系数较大。经过近几年来的研究发现,过
视频监控是当前计算机视觉的研究热点,而运动目标的分割和运动阴影的检测是视觉监控中的首要问题。运动目标分割的目的是从图像序列中将变化区域从背景图像中分割出来。但是,在
本文从介绍网络安全的现状、所面临的威胁、发展趋势及其研究的重点出发,对当前主动防御技术进行了基本的介绍,对各种技术进行比较,指出其优缺点。本文采用了基于程序行为分
随着网络时代的到来,互联网已经成为了一个重要的信息处理平台。如何在互联网上更加快捷、方便地交互和处理数据已经成为开发人员和用户的共同愿望。当今XML已经成为Internet
学位
近些年来,机器人开始走进人们的日常生活中,日益改善着人们的生活方式。而目前机器人与人的人机交互却没有与之相应发展起来。目前人与机器人交互方式仍然是鼠标、键盘、遥控
近年来,社会各界对云计算的关注度不断攀升,各种规模的商业云平台不断被建立起来,为远在千里之外的用户提供服务。为了保证服务质量,企业不惜投入大量资金在购买带宽上。然而
随着互联网的迅速发展和普及,网络已经成为人们获取信息的一个重要途径。由于网络信息资源飞速增长,如何有效地处理这些海量信息,并检索出用户所需信息成为一个非常重要的研
论文以数字图像处理为理论基础,借助了一些信号处理和计算机视觉上的一些思路来研究古碑文图像的处理,通过对大量的古碑文图像进行分析,针对不同的碑文图像特点,对不同的碑文
云存储作为一种新兴的存储模式,以其低成本、高可靠、弹性和按需付费的特点,吸引了越来越多的企业和用户将数据放在云端。如何降低云存储中海量数据的存储开销成为一个重要的