【摘 要】
:
单目图像的三维人体姿态估计是计算机视觉中一项基本但富有挑战的任务,其目的是检测单目图像中的人体姿态并将其投影到三维空间中。随着科学技术的快速发展,三维视觉已成为人工智能研究和应用的热门领域,越来越多的专家学者投入到该领域的探索中。三维人体姿态估计精度一方面受图像外部遮挡、自遮挡和光线等因素影响,另一方面人体结构的特殊性也会给该问题的解决带来诸多困难。并且,如何将二维空间提升到三维空间本身是一个复杂
论文部分内容阅读
单目图像的三维人体姿态估计是计算机视觉中一项基本但富有挑战的任务,其目的是检测单目图像中的人体姿态并将其投影到三维空间中。随着科学技术的快速发展,三维视觉已成为人工智能研究和应用的热门领域,越来越多的专家学者投入到该领域的探索中。三维人体姿态估计精度一方面受图像外部遮挡、自遮挡和光线等因素影响,另一方面人体结构的特殊性也会给该问题的解决带来诸多困难。并且,如何将二维空间提升到三维空间本身是一个复杂的病态问题,深度数据缺失会导致一个二维坐标与多个三维坐标问题对应。目前已有的算法通常会对三维人体姿态进行整体回归,无法有效估计部分难度较高的关节点。针对三维人体姿态估计的难题,本文研究的重点是,在深度学习框架下利用人体拓扑结构信息来提高三维人体姿态估计效果,主要工作如下:(1)为了利用网络深层特征中包含的人体结构信息,本文提出了一个人体结构感知网络模型来进行三维人体姿态估计,通过由粗到精级联加深全连接网络深度的方式,扩大模型参数空间从而提高网络的非线性拟合能力。本文先利用“沙漏网络”检测、提取单目图像中人体的二维关节点坐标,其次通过“基本网络”将二维关节点坐标提升到三维空间中,再根据人体拓扑结构对人体关节点进行分组,最后将“优化网络”级联到“基本网络”对部分关节点进行调优。(2)考虑到人体关节点复杂度的差异性问题,本文还设计了一种精细化的层次上下文相关优化网络模型。该模型主要依据人体关节点的运动统计特征和估计难度将人体关节点划分为五类,并设计了对应的网络层,逐层推导关节点的三维坐标。为了缓解全连接神经网络层数过多导致的过拟合的问题,文章研究并探索了一种全新的随机增强模块,其在对特征进行适应性破坏的同时能够保留关节点之间的约束信息。由于多个子网络前向传播过程中可能会导致二维线索丢失,因此本文还设计了一种基于注意力机制的注意力模块来保证几何信息的有效传递。为了充分证明模型的有效性和可行性,本文在两个公开数据集Human3.6M和Human Eva上进行定量、定性实验。对比前沿的三维人体姿态估计方法,本文提出的模型方法均取得显著的效果,能够明显降低姿态估计误差。
其他文献
深度学习是机器学习领域中的一个研究方向,是一种以复杂神经网络为基础架构,学习数据的内在规律和表示特征的算法。深度学习使计算机具有像人一样的分析学习能力——能够识别文字图像声音和挖掘数据内部特征,因此,深度学习已被广泛应用于搜索技术,数据挖掘,自然语言处理,图像识别,机器人导航,推荐系统和个性化技术中,同时也在其他相关领域中取得了许多成果。然而,现有的深度学习模型在计算上昂贵且占用大量内存,从而阻碍
近年来,随着现代信息技术的飞速发展,人类进入信息社会,越来越多现实应用领域涉及到多标签学习问题,如文本分类、生物信息学、图像识别等等。传统的单标签学习中,学习对象只隶属于单一类别,而多标签学习中,学习对象可同时隶属于多个类别,并且类别(标签)之间存在着复杂的关联性。多标签学习的目的是准确预测未知样本具有的标签子集,由于标签数量可能巨大且互相之间存在着复杂的关联性,因此,比传统的单标签学习具有更高的
随着计算机科学的发展,数字图像和视频成为人类获取外界信息的主要来源,而在现实世界的夜晚或者其他低光条件下,我们获得的图像和视频质量会降低,这包括亮度低、对比度低、噪声大等特点.这些图像和视频质量的降低将会直接影响到监控安防、夜间行车和生物医学等领域的发展.因此,随着计算机视觉等研究领域的不断深入,图像处理技术备受重视,其中低光图像增强就是计算机视觉的一项重要课题.对于一些经典的低光图像增强算法,参
数字图像处理近年来得到了极大的重视和长足的发展,并在科学研究、医疗卫生、通信方面得到了广泛的应用.在实际图像形成、传输的过程中,由于各种干扰因素的存在图片会受到噪声的污染.这严重影响了人们对数字图像的认识,所以图像复原在图像处理中十分重要.本文主要针对脉冲噪声(特别是椒盐噪声和随机值脉冲噪声),提出基于鲁棒分形图像编码的原始对偶算法和低秩加权核范数算法,数值实验也说明了这两种算法的有效性.具体研究
大数据时代,聚类分析是探索性数据分析不可或缺的工具.与分类相异,聚类是在无监督环境下进行的.在聚类分析中,人们通常认为彼此接近的点往往属于同一个类别,这就是所谓的聚类假设.通常情况下,同一类中的模式比不同类中的模式相似性更大.当我们把研究对象数字化为多维空间当中的点时,模式之间的相似性可转化为对应数据点之间的邻近度(或相似系数).根据聚类的这些特点,本学位论文提出了一种基于类内邻近度的聚类算法框架
在真实场景中,由于被拍摄物体快速运动、拍摄者手抖等各种原因,使得运动模糊成为最常见的模糊类型之一,运动模糊图像复原技术成为了一大研究热点。近几年,随着计算机处理速度和存储能力的提升,在运动模糊图像复原这一任务中,利用深度学习对模糊图像进行复原的方法发展迅速,该类方法使用卷积神经网络自动估计模糊核,显著提高了复原效果。主流的运动模糊图像复原算法均需要使用成对的数据集进行训练,而获取成对的数据集往往比
图像分割是按照不同特征将图像划分成互不重叠、具有独特性质的各个区域,从而提取感兴趣目标的位置或者边界的过程.这一技术是进一步图像分析、理解的基础和关键,被广泛应用于多个领域,特别是在图像处理领域占据着重要的地位.迄今为止,上千种分割方法已被提出,通常都是针对特定问题的图像分割方法,具有一定的针对性和局限性,无法形成一个适合所有类型图像通用的分割算法.基于变分水平集方法和基于区域的活动轮廓分割方法在
背景:人工全膝关节置换术(Total knee arthroplasty,TKA)中在使用旋转平台假体(Rotating-platform prosthesis,RP)时,对后交叉韧带的不同处理方式中有两种假体设计分别对应两种手术方式,其中一种是后交叉韧带保留型旋转平台假体(Posterior cruciate-retaining rotating-platform prosthesis,CR-R
量子计算是依赖于量子力学原理来获得解的一种新型计算模型,由于量子计算的并行计算能力,量子计算在解决某些特定问题时,它比经典计算的效率要高。Grover量子搜索算法是量子算法中具有广泛应用前景的一种算法,算法可以在量子线路复杂度为/O(2n/2)的情况下求解一个规模为2n的搜索问题。本文从降低Grover算法的量子线路复杂度的角度出发,提出两种改进的算法,并将改进的算法应用到3-SAT问题上。1.为
随着信息化和数字化的快速发展,人们对信息传播质量的要求日益提高,作为传播最为广泛的媒体之一,数字图像的成像质量也成为了各行各业关注的焦点。然而,成像硬件、成像环境以及传输技术等条件的限制往往会降低图像的分辨率,导致图像信息的丢失。因此,如何将低分辨率图像通过算法重建为高分辨率图像始终是图像处理以及计算机视觉领域的一个热门研究方向。近几年利用深度学习算法进行图像超分辨率重建的研究逐渐增多,同时也取得